国内外十大语言模型横向对比测评(截至2023.12.8)

本文对比分析了国内外十大语言模型在长距离理解、多语种泛化、关键信息处理、数学计算、推理、常识、思维链、文本生成、信息提取、JSON转换和代码执行等10个方面的性能,展示了GPT4和文心4在特定任务中的优势和挑战。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主要参考资料:
B站Up主贯一智能科技《国内外十大语言模型之横向对比测评》

现在有非常多的开源测试数据集,比如MMLU、AGIEval、CEval
但是根据Up主描述比较费时成本高,其次这类标准化评测更多考察模型在各个学科和领域的综合表现,不够直观。
下面是Up主选择的10个方面。限制实验提示词一律使用汉语,每次测试后都会重启对话。

长距离捕获力+精确度

题目:请闭合下面的括号:{[({[(

多语种泛化能力+关键信息捕捉

题目:yeterday我eat了three个hamburger,每个cost我三dollar,total多少monney?
在此基础上每次替换一个外语单词,知道模型无法正确输出结果为止。

多轮对话+数学计算

题目:这一轮的数字是1,请记住。
这一轮的数字是2,请记住。并和之前所有轮数字相加。
这一轮的数字是3,请记住。并和之前所有轮数字相加。
……
GPT4、通义千问、文心4都可以坚持30轮以上。

推理能力+常识+思维链

题目:小明有三个苹果,小红给了他两个橘子,然后他又从小华那里得到了两个苹果。之后,小明吃掉了一个苹果和一个橘子,又去百货商店卖掉了两个苹果,买了一个椰子、两颗卷心菜和三个橘子。请问,现在小明手上有多少个水果,多少个蔬菜?

GPT4和文心4推理正确

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值