![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
评测数据集
文章平均质量分 81
司南OpenCompass
公众号:司南评测体系,致力构建透明、准确的大模型开源评测体系
展开
-
司南 OpenCompass 5 月榜单揭晓,全新大模型对战榜单首次登场
司南 OpenCompass 团队针对国内外主流大语言模型进行了全面评测,现已公布 2024 年 5 月大语言模型最新评测榜单!与此同时,CompassArena 大模型对战榜单 也于今日首次重磅上线!原创 2024-07-31 14:42:12 · 724 阅读 · 0 评论 -
GPT-4o的数学又双叕进步了?来MathBench看看新版GPT-4o到底强在哪
数学推理和问题解决是人类智力的重要方面,几十年来也一直是人工智能(AI)领域研究的重点以及大模型的兵家必争之地。机器对数学问题的理解、解释和解决能力不仅是其认知能力的标杆,还在其各个领域的应用中发挥着关键作用。因为模型的数学能力强,往往代表了模型具有更强的推理和知识整合能力,也能更好的完成其他任务。随着现代大型语言模型(LLMs)如OpenAI的ChatGPT和GPT-4的出现,LLMs展示了生成类人对话和解决复杂数学难题的非凡能力。原创 2024-07-31 14:33:34 · 607 阅读 · 0 评论 -
MedBench迭代升级,找出最合格的“医学生”
MedBench医疗大模型评测平台进行了全面升级,丰富了评测参评方式,新增API评测,同时优化了开放域问答(Open-domain question answer)的评估指标,通过医学专家标注答题点,进一步确保了评测结果的公平性和专业性。此外,平台在评测数据集、评测方法以及系统功能方面也进行了相应的升级,致力于为医疗大模型评测构建更健全的社区环境,并提供更为丰富、真实的实践场景。原创 2024-07-30 13:24:35 · 732 阅读 · 0 评论