大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。
一些结论
模型名称 | 是否通过测试 | 理解问题能力 | 逻辑推理能力 | 遵循指令能力 | 一致性 | 误导性问题处理 |
---|---|---|---|---|---|---|
ChatGPT 4 | ✅ | 高 | 高 | 高 | 高 | 高 |
Claude 3-opus | ✅ | 高 | 高 | 高 | 高 | 高 |
谷歌Gemini Pro | ❌ | 低 | 低 | 中 | 低 | 低 |
谷歌Gemini Ultra | ❌ | 低 | 低 | 中 | 低 | 低 |
文心一言 | ❌ | 低 | 低 | 中 | 低 | 低 |
通义千问 | ✅ | 高 | 高 | 高 | 高 | 高 |
讯飞星火大模型 | ✅ | 高 | 高 | 高 | 高 | 高 |
Kimi Chat | ❌ | 低 | 低 | 中 | 低 | 低 |
测试问题
这是一个在国外比较火的逻辑测试题目,题目本身非常简单,但这个“简单”是相对于我们人类来说的,对于LLM大语言模型来说,这属于一个“陷阱型”题目,非常容易答错。
英文题目:If there are 1000 books in a room and I read 2, how many books are still in the room? Answer succinctly
中文题目:如果一个房间里有1000本书,我读了2本,房间里还有多少本书?请简洁回答。
另外,考虑到公平,以及谷歌Ultra目前仅支持英文,对于国外的LLM模型来说,测试一律以英文进行;对于国内的LLM模型来说,测试一律以中文进行。
ChatGPT 4的回答
There are still 1000 books in the room.
房间里还有1000本书。
ChatGPT 4的解释
Certainly! The question you asked pertains to the number of books in a room before and after you read some of them. Reading books does not remove them from the room; it simply changes your personal experience with those books. Therefore, if there were 1000 books in the room initially and you read 2 of them, all 1000 books would still physically be in the room after you've read them. The act of reading does not decrease the count of books present; it only means that you have gained knowledge or enjoyment from 2 out of those 1000 books.
当然!你提出的问题涉及到在你阅读一些书之前和之后房间里书的数量。阅读书籍并不会将它们从房间中移除;它只是改变了你与这些书的个人体验。因此,如果最初房间里有1000本书,你读了其中的2本,那么在你阅读完之后,这1000本书仍然会在房间里。阅读并不会减少房间内书的数量;它只意味着你从这1000本书中获得了2本的知识或乐趣。
Claude 3-opus 的回答
Claude 3-opus是Claude 3系列模型中最强大的模型,详情可以看我之前的这篇文章:
Claude 3模型重磅发布!号称已全面超越GPT4!附详细解读和体验地址
There are still 1000 books in the room.
房间里还有1000本书。
Claude 3-opus 的解释
The number of books in the room does not change when you read some of them. Reading books does not remove them from the room; it only means that you have personally read those specific books. Therefore, if there were 1000 books in the room initially, there will still be 1000 books in the room after you have read 2 of them, assuming no books were added or removed from the room in the meantime.
房间里的书的数量在你阅读其中一些书时不会改变。阅读书并不会把它们从房间里移走;这只意味着你个人已经阅读了那些具体的书。因此,如果最初房间里有1000本书,那么在你阅读其中2本书后,假设期间没有添加或移走书,房间里仍然会有1000本书。
谷歌Gemini Pro的回答
There are 998 books left.
谷歌Gemini Ultra的回答
There would still be 998 books in the room.
文心一言的回答
房间里还有998本书。
通义千问的回答
房间中仍然有1000本书。虽然你读了2本,但问题描述并没有说明书被移出房间,所以从房间内书的总数来看,数量保持不变,仍然是1000本。
讯飞星火大模型的回答
房间里还有1000本书。
房间里原本有1000本书,你读了2本,但这并不意味着书的数量减少了。读书只是获取书中的信息和知识,并不会改变书的物理存在。所以,无论你读了多少本书,只要没有人拿走或者添加新的书,房间里的书的数量还是1000本。
Kimi Chat的回答
房间里还有998本书。
总结
-
理解问题能力和逻辑推理能力:ChatGPT 4、Claude 3-opus、通义千问和讯飞星火大模型都表现出了高水平的理解和逻辑推理能力,正确识别了阅读书籍不会改变房间中书籍总数的事实。而谷歌Gemini Pro、谷歌Gemini Ultra、文心一言和Kimi Chat似乎误解了问题的本质,错误地认为阅读会减少房间内的书籍数量。
-
遵循指令能力:大部分模型都能简洁地回答问题,但在理解问题本质上出现偏差的模型,其简洁性并没有太大帮助。
-
一致性和误导性问题处理:ChatGPT 4、Claude 3-opus、通义千问和讯飞星火大模型在处理潜在的误导性问题时表现出了一致性和高效的处理能力,而其他模型则在这方面表现不佳,可能是由于对问题的误解导致的。
模型名称 | 是否通过测试 | 理解问题能力 | 逻辑推理能力 | 遵循指令能力 | 一致性 | 误导性问题处理 |
---|---|---|---|---|---|---|
ChatGPT 4 | ✅ | 高 | 高 | 高 | 高 | 高 |
Claude 3-opus | ✅ | 高 | 高 | 高 | 高 | 高 |
谷歌Gemini Pro | ❌ | 低 | 低 | 中 | 低 | 低 |
谷歌Gemini Ultra | ❌ | 低 | 低 | 中 | 低 | 低 |
文心一言 | ❌ | 低 | 低 | 中 | 低 | 低 |
通义千问 | ✅ | 高 | 高 | 高 | 高 | 高 |
讯飞星火大模型 | ✅ | 高 | 高 | 高 | 高 | 高 |
Kimi Chat | ❌ | 低 | 低 | 中 | 低 | 低 |
精选推荐
都读到这里了,点个赞鼓励一下吧😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。