数据集
文章平均质量分 93
司南OpenCompass
公众号:司南评测体系,致力构建透明、准确的大模型开源评测体系
展开
-
GPT-4o的数学又双叕进步了?来MathBench看看新版GPT-4o到底强在哪
数学推理和问题解决是人类智力的重要方面,几十年来也一直是人工智能(AI)领域研究的重点以及大模型的兵家必争之地。机器对数学问题的理解、解释和解决能力不仅是其认知能力的标杆,还在其各个领域的应用中发挥着关键作用。因为模型的数学能力强,往往代表了模型具有更强的推理和知识整合能力,也能更好的完成其他任务。随着现代大型语言模型(LLMs)如OpenAI的ChatGPT和GPT-4的出现,LLMs展示了生成类人对话和解决复杂数学难题的非凡能力。原创 2024-07-31 14:33:34 · 1101 阅读 · 0 评论 -
Flames:大语言模型价值对齐评测基准
Flames是由上海人工智能实验室和复旦大学联合构建的大语言模型价值对齐评测基准,包含一个综合性评测框架、高对抗性中文数据集和自动评分模型,囊括Fairness(公平), Safety(安全),Morality(道德),Data Protection(数据保护),以及Legality(合法)五个大维度,Flames名字也来源于此。原创 2024-07-30 13:17:43 · 1053 阅读 · 0 评论