一道小学题目，国产大模型全军覆没

最新推荐文章于 2024-07-17 21:40:42 发布

Aweii__

最新推荐文章于 2024-07-17 21:40:42 发布

阅读量847

点赞数 16

文章标签：人工智能语言模型 agi 深度学习学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Aweii__/article/details/140395251

版权

让8个国产主流大模型做做小学一年级的数学题看看？

8月31日消息，首批大模型产品将陆续通过《生成式人工智能服务管理暂行办法》（以下简称《暂行办法》）备案，可正式上线面向公众提供服务。其中包括：百度文心一言、抖音云雀大模型、智谱AI的GLM大模型、中科院的紫东太初大模型、百川智能的百川大模型、商汤的日日新大模型、MiniMax的ABAB大模型、上海人工智能实验室的书生通用大模型、科大讯飞星火大模型，以及华为、腾讯的大模型产品，共计11家。

这是今天的新闻，上面提到的这些模型目前大部分都可以找到在线体验入口，想起前几天给我们家小孩讲过的小学一年级数学练习册里的一道题目，拿来考考这些大语言模型，看看它们的表现。

**题目：**15个圆球从上往下排列，其中只有1个是红色的，从上往下数，红色圆球位于第6个，这时，从最尾部拿走一个球，此时，请问从下往上数，红色圆球在第几个？

（小伙伴反馈「最尾部」不好理解，我换成「最下面」重新试了一下，除了讯飞星火，其他7个大模型仍然没有回答对）

中科院的紫东太初大模型、上海人工智能实验室的书生通用大模型、华为的盘古大模型、腾讯的混元大模型，这四个我没有找到在线体验入口。另外，阿里的通义千问虽然没有在上述11家里，但因为知名度的关系，我也测试了。

先说结论，挺出乎我意料的，国产大模型在这道相对简单的推理题上全军覆没，字节云雀和讯飞星火算是勉强摸到边，其他模型的回答都很糟糕。最后一张截图是我调了一下OpenAI的gpt-turbo-3.5-0613模型，它给出了正确的答案。

文章最后附上了各个模型的入口，有兴趣的同学可以自己去体验一下。

注1：补充360智脑大模型的测试结果（2023.09.05）

注2：这个测试只能说明这些国产大模型在这个特定的题目上表现不好，更全面的做法应该是使用一些业界的基准测试来评测。

百度文心一言

字节云雀（豆包）

智谱AI

百川智能

商汤日日新（商量）

MiniMax ABAB

科大讯飞星火

阿里通义千问

GPT-TURBO-3.5-0613

360智脑

附：各模型的体验入口

百度文心一言：https://yiyan.baidu.com/
字节云雀（豆包）：https://www.doubao.com/chat/
智谱AI：https://open.bigmodel.cn/trialcenter?modelCode=chatglm_pro
百川智能：https://chat.baichuan-ai.com/home
商汤日日新（商量）：https://chat.sensetime.com/wb/#/
MiniMax ABAB：https://api.minimax.chat/examination-center/text-experience-center
科大讯飞星火：https://xinghuo.xfyun.cn/desk
阿里通义千问：https://qianwen.aliyun.com/chat
360智脑：https://ai.360.cn/invite

关注

16
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
一道小学题目，国产大模型全军覆没

近年来，随着人工智能技术的迅猛发展，各种大模型如雨后春笋般涌现，它们在各自的领域内展现出了强大的实力和潜力。然而在实践过程中，让8个国产主流大模型做做小学一年级的数学题却遭到了全军覆没。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。