国内外十大语言模型横向对比测评（截至2023.12.8）

弱冠少年

已于 2024-04-03 13:34:06 修改

阅读量2.6k

点赞数 24

分类专栏： AIGC 文章标签：语言模型人工智能自然语言处理

于 2024-01-12 22:29:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40773212/article/details/135398859

版权

本文对比分析了国内外十大语言模型在长距离理解、多语种泛化、关键信息处理、数学计算、推理、常识、思维链、文本生成、信息提取、JSON转换和代码执行等10个方面的性能，展示了GPT4和文心4在特定任务中的优势和挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

主要参考资料：
B站Up主贯一智能科技《国内外十大语言模型之横向对比测评》

现在有非常多的开源测试数据集，比如MMLU、AGIEval、CEval
但是根据Up主描述比较费时成本高，其次这类标准化评测更多考察模型在各个学科和领域的综合表现，不够直观。
下面是Up主选择的10个方面。限制实验提示词一律使用汉语，每次测试后都会重启对话。

目录

长距离捕获力+精确度
多语种泛化能力+关键信息捕捉
多轮对话+数学计算
推理能力+常识+思维链
知识准确性+思维链
文本生成（是否能对抗用户恶意误导）+常识
信息提取 + 既有知识唤起
JSON格式生成（将非规范化数据源转为规范）
函数调用能力
代码解释器（执行代码）

长距离捕获力+精确度

题目：请闭合下面的括号：{[({[(

多语种泛化能力+关键信息捕捉

题目：yeterday我eat了three个hamburger，每个cost我三dollar，total多少monney？
在此基础上每次替换一个外语单词，知道模型无法正确输出结果为止。

多轮对话+数学计算

题目：这一轮的数字是1，请记住。
这一轮的数字是2，请记住。并和之前所有轮数字相加。
这一轮的数字是3，请记住。并和之前所有轮数字相加。
……
GPT4、通义千问、文心4都可以坚持30轮以上。

推理能力+常识+思维链

题目：小明有三个苹果，小红给了他两个橘子，然后他又从小华那里得到了两个苹果。之后，小明吃掉了一个苹果和一个橘子，又去百货商店卖掉了两个苹果，买了一个椰子、两颗卷心菜和三个橘子。请问，现在小明手上有多少个水果，多少个蔬菜?

GPT4和文心4推理正确

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。