通义千问Qwen2.5Max + Thinking推理能力过关

stereohomology

已于 2025-02-25 14:19:34 修改

阅读量219

点赞数 1

文章标签：人工智能大语言模型对比

于 2025-02-25 14:17:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/stereohomology/article/details/145852002

版权

终于试用到了Qwen2.5Max +Thinking
在这里插入图片描述
同一道小学数学应用题，Qwen2.5Max不加“反思”选项，得到的是错误结果。增加了之后，会反复对比自己之前得到的错误结果，多次验算，最终还是肯定了自己重新得到的正确答案。

这样，起码可以肯定通义千问有条件使用的情况下推理能力过了我测试的一个门槛了。到目前为止，DeepSeek R1/DeepSeek V3（满血或者完整版）， Grok 3 Beta， Qwen2.5Max +Thinking ，三个大模型的推理能力经过了小学数学应用题的简单测试。自我反省能力算及格了。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。