一道小学题目,国产大模型全军覆没

让8个国产主流大模型做做小学一年级的数学题看看?

8月31日消息,首批大模型产品将陆续通过《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》)备案,可正式上线面向公众提供服务。其中包括:百度文心一言、抖音云雀大模型、智谱AI的GLM大模型、中科院的紫东太初大模型、百川智能的百川大模型、商汤的日日新大模型、MiniMax的ABAB大模型、上海人工智能实验室的书生通用大模型、科大讯飞星火大模型,以及华为、腾讯的大模型产品,共计11家。

这是今天的新闻,上面提到的这些模型目前大部分都可以找到在线体验入口,想起前几天给我们家小孩讲过的小学一年级数学练习册里的一道题目,拿来考考这些大语言模型,看看它们的表现。

**题目:**15个圆球从上往下排列,其中只有1个是红色的,从上往下数,红色圆球位于第6个,这时,从最尾部拿走一个球,此时,请问从下往上数,红色圆球在第几个?

(小伙伴反馈「最尾部」不好理解,我换成「最下面」重新试了一下,除了讯飞星火,其他7个大模型仍然没有回答对)

中科院的紫东太初大模型、上海人工智能实验室的书生通用大模型、华为的盘古大模型、腾讯的混元大模型,这四个我没有找到在线体验入口。另外,阿里的通义千问虽然没有在上述11家里,但因为知名度的关系,我也测试了。

先说结论,挺出乎我意料的,国产大模型在这道相对简单的推理题上全军覆没,字节云雀和讯飞星火算是勉强摸到边,其他模型的回答都很糟糕。最后一张截图是我调了一下OpenAI的gpt-turbo-3.5-0613模型,它给出了正确的答案。

文章最后附上了各个模型的入口,有兴趣的同学可以自己去体验一下。

注1:补充360智脑大模型的测试结果(2023.09.05)

注2:这个测试只能说明这些国产大模型在这个特定的题目上表现不好,更全面的做法应该是使用一些业界的基准测试来评测。

百度文心一言

字节云雀(豆包)

智谱AI

百川智能

商汤日日新(商量)

MiniMax ABAB

科大讯飞星火

阿里通义千问

GPT-TURBO-3.5-0613

360智脑

附:各模型的体验入口

百度文心一言:https://yiyan.baidu.com/
字节云雀(豆包):https://www.doubao.com/chat/
智谱AI:https://open.bigmodel.cn/trialcenter?modelCode=chatglm_pro
百川智能:https://chat.baichuan-ai.com/home
商汤日日新(商量):https://chat.sensetime.com/wb/#/
MiniMax ABAB:https://api.minimax.chat/examination-center/text-experience-center
科大讯飞星火:https://xinghuo.xfyun.cn/desk
阿里通义千问:https://qianwen.aliyun.com/chat
360智脑:https://ai.360.cn/invite

  • 16
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值