9.9和9.11哪个大？我问了20个AI，只有4个回答完全正确！

AI信息Gap

于 2024-07-18 07:21:40 发布

阅读量1.1k

点赞数 13

文章标签：人工智能 ai

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40774379/article/details/140511133

版权

9.9和9.11哪个大？我测试了20个AI模型/工具，竟然只有4个AI回答完全正确！甚至连公认的最强模型GPT-4o和Claude 3.5 Pro也给出了错误的回答和解释。

结论

先上结论。

排名	AI 名称	回答是否正确	解释是否正确	备注
🥇 1	Gemini 1.5 Pro	✅	✅	回答和解释都非常正确，逻辑清晰且严谨
🥈 2	阿里通义千问	✅	✅	回答和解释都非常正确
🥉 3	MiniMax海螺AI	✅	✅	回答和解释都正确
4	百川智能百小应	✅	✅	回答和解释都正确
5	谷歌Gemini	✅	❌	回答正确，但解释过程不够严谨
6	文心3.5	✅	❌	回答正确，但解释过程不够有说服力
7	文心4.0	✅	❌	回答正确，但解释过程不够有说服力
8	讯飞星火	✅	❌	回答和解释都正确，但出现自我矛盾
9	零一万物万知	❌	❌	回答错误
10	GPT-4o	❌	❌	回答错误
11	GPT-4 Turbo	❌	❌	回答错误
12	Claude 3.5 Sonnet	❌	❌	回答错误
13	Meta - Llama 3	❌	❌	回答错误
14	Mistral AI	❌	❌	回答错误
15	Kimi	❌	❌	回答错误
16	智谱清言	❌	❌	回答错误
17	字节豆包	❌	❌	回答错误
18	腾讯元宝	❌	❌	回答错误
19	阶跃星辰跃问	❌	❌	回答错误
20	天工AI	❓	❓	结果作废，无法关闭搜索功能

回答正确的AI（8个）

谷歌Gemini：回答正确，但解释过程不够严谨。
Gemini 1.5 Pro：回答和解释都非常正确，逻辑清晰且严谨。
阿里通义千问：回答和解释都非常正确。
文心3.5：回答正确，但解释过程不够有说服力。
文心4.0：同上，回答正确但解释过程不够有说服力。
讯飞星火：回答和解释都正确，但解释过程出现幻觉。
MiniMax海螺AI：回答和解释都正确。
百川智能百小应：回答和解释都正确。

回答错误的AI（11个）

GPT-4o：回答错误。
GPT-4 Turbo：回答错误。
Claude 3.5 Sonnet：回答错误。
Meta - Llama 3：回答错误。
Mistral AI：回答错误。
Kimi：回答错误。
智谱清言：回答错误。
零一万物万知：回答错误。
字节豆包：回答错误。
腾讯元宝：回答错误。
阶跃星辰跃问：回答错误。

问题

9.9和9.11哪个大？

1. GPT-4o

错误。

2. GPT-4 Turbo

错误。

3. 谷歌Gemini

回答正确，但解释过程不是非常严谨。

4. Gemini 1.5 Pro

正确。解释也非常正确，逻辑清晰且严谨。

5. Claude 3.5 Sonnet

错误。

6. Meta - Llama 3

错误。

7. Mistral AI

错误。

8. Kimi

错误。

9. 阿里通义千问

正确。解释也非常正确。

10. 文心3.5

正确，但解释的过程不是非常有说服力，在最关键的步骤用“很显然”这样的话一语带过了。

11. 文心4.0

正确，但同上，解释的过程不是非常有说服力，在最关键的步骤用“很显然”这样的话一语带过了。

12. 讯飞星火

回答和解释都正确，但讯飞星火的这句“对不起，我之前的回答有误”令人哭笑不得。这我该算你对还是算你错。

13. 智谱清言

错误。

14. 天工AI

由于天工AI无法关闭搜索功能直接回答这个问题，即使提示词里加了“不要联网搜索”也不行，所以本次测试结果作废。

15. 字节豆包

错误。

16. 零一万物万知

错误。

17. MiniMax海螺AI

正确，解释也很正确。

18. 腾讯元宝

错误。

19. 阶跃星辰跃问

错误。

20. 百川智能百小应

正确。解答也正确。

精选推荐

都读到这里了，点个赞鼓励一下吧，小手一赞，年薪百万！😊👍👍👍。关注我，AI之路不迷路，原创技术文章第一时间推送🤖。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。