大语言模型
司南OpenCompass
公众号:司南评测体系,致力构建透明、准确的大模型开源评测体系
展开
-
司南 OpenCompass 5 月榜单揭晓,全新大模型对战榜单首次登场
司南 OpenCompass 团队针对国内外主流大语言模型进行了全面评测,现已公布 2024 年 5 月大语言模型最新评测榜单!与此同时,CompassArena 大模型对战榜单 也于今日首次重磅上线!原创 2024-07-31 14:42:12 · 724 阅读 · 0 评论 -
GPT-4o的数学又双叕进步了?来MathBench看看新版GPT-4o到底强在哪
数学推理和问题解决是人类智力的重要方面,几十年来也一直是人工智能(AI)领域研究的重点以及大模型的兵家必争之地。机器对数学问题的理解、解释和解决能力不仅是其认知能力的标杆,还在其各个领域的应用中发挥着关键作用。因为模型的数学能力强,往往代表了模型具有更强的推理和知识整合能力,也能更好的完成其他任务。随着现代大型语言模型(LLMs)如OpenAI的ChatGPT和GPT-4的出现,LLMs展示了生成类人对话和解决复杂数学难题的非凡能力。原创 2024-07-31 14:33:34 · 607 阅读 · 0 评论