学会“模糊思考”：推理速度提升22%，还少犯错

zenRRan

于 2025-05-22 17:32:15 发布

阅读量343

点赞数 5

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27590277/article/details/148153444

版权

过去的 LLM 在推理时，每一步只能选一个确定的词（比如“苹果”或“香蕉”），就像考试时必须在ABCD中硬选一个答案。这种离散符号的思考方式有两个致命问题：

容易走错路：一旦某一步选错词，后续推理全盘崩坏（比如解题时第一步算错，后面全错）；
效率低下：必须像“挤牙膏”一样一步步生成文字，耗时长且算力浪费严重。

论文：Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space
链接：https://arxiv.org/pdf/2505.15778

而人类的思维更灵活：我们会在脑中模糊地考虑多种可能性（比如同时想到“苹果、水果、红色”），最后再整理成语言。论文指出，学会这种“模糊思考”才是突破的关键。

传统离散推理 vs 软思考的连续概念空间

传统离散推理 vs 软思考的连续概念空间

软思考：让LLM学会“模糊推理”

论文提出的Soft Thinking方法，核心是用“概念标记”替代传统词汇。

概念标记是什么？
每个推理步骤不再是某个具体词，而是所有可能词的概率混合体。例如，在思考“水果”时，可能同时包含“苹果（30%）、香蕉（20%）、红色（15%）……”的混合概念。
数学公式解析
假设词表有10万个词，每个词的嵌入向量是，概率分布是，则“概念标记”的嵌入值为：

翻译一下：把10万个词按概率高低“加权平均”，生成一个代表模糊概念的新向量。

这种方法让LLM在推理时保留所有可能性，像人类一样“边想边调整”，避免过早锁定错误答案。

防崩溃：Cold Stop机制

但问题来了：如果LLM在模糊思考中“迷路”了怎么办？比如一直循环“红色→苹果→水果→红色……”停不下来。论文设计了Cold Stop机制：

熵（Entropy）：衡量“纠结程度”。熵值低=很自信，熵值高=在犹豫。
动态停止：当连续几步都高度自信（熵值低于阈值），就提前结束推理，直接输出答案。

解题时概率分布的变化——前期模糊探索，后期确定计算

实验：又快又准，鱼与熊掌兼得

论文在数学题和编程题上测试，结果惊艳：

准确率提升：数学题平均正确率最高涨2.48%（如从83.8%→86.3%），编程题也有小幅提升；
效率飙升：生成答案所需的计算量（token数）减少22.4%，相当于跑车换赛道还省油。

数学题实验结果：软思考 vs 传统方法

编程题实验结果：少用token，正确率更高

更厉害的是，软思考的答案更简洁。例如同一道题，传统方法需要157个token，而软思考只用96个，且逻辑更清晰。

谈下研究意义

这项研究的意义远超论文本身：无需额外训练，现有模型直接可用；AI的思考过程会更接近人类，更容易被理解。

总之，很有意思的一个研究，值得阅读原文。

备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群

id：DLNLPer，记得备注呦

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。