谷歌 DeepMind 新研究:PoT 让 LLM 探索多思考路径,个性化问答人类偏好率达 66%!

摘要:个性化对于让问答(QA)系统适应用户专属的信息需求至关重要,可显著提升准确率与用户满意度。然而,个性化问答仍研究较少,其难点在于:需从冗长、嘈杂且隐含的语境中推断用户偏好,并生成同时满足“事实正确、语境恰当、符合用户期望与背景知识”的回答。为此,我们提出“思维路径”(Pathways of Thoughts,PoT)——一种无需任务特定微调、即可应用于任何大语言模型(LLM)的推理阶段方法。该方法将 LLM 的推理建模为迭代决策过程:模型动态选择“推理、修正、个性化、澄清”等认知操作,从而探索多条推理轨迹,产生蕴含不同视角的多样化候选回答。随后,PoT 根据推断出的用户偏好对这些候选进行聚合与重加权,得到兼具各条路径互补优势的最终个性化回答。在个性化问答基准 LaMP-QA 上的实验表明,PoT 持续优于竞争性基线,最高可带来 13.1% 的相对提升;人工评估亦印证此结果:66% 的情况下标注者更青睐 PoT 的输出,仅 15% 的情况打成平手。

论文题目: Pathways of Thoughts: Multi-Directional Thinking for Long-form Personalized Question Answering
作者: Alireza Salemi, Cheng Li, Mingyang Zhang
年份: 2025
论文地址: https://arxiv.org/pdf/2509.19094
关键词: ["大语言模型", "个性化问答", "思维路径"]

欢迎大家关注我的公众号:大模型论文研习社
往期回顾:大模型也会 “脑补” 了!Mirage 框架解锁多模态推理新范式,无需生成像素图性能还暴涨

欢迎大家体验我的小程序:王哥儿LLM刷题宝典,里面有大模型相关面经,正在持续更新中

个性化问答:为什么LLM需要“多向思考”?

个性化问答(Personalized QA)旨在为不同用户生成适配其认知特征、需求场景的精准回答,其价值在教育与职场场景中尤为突出。在教育领域,面对同一数学问题,基础薄弱的学生需具象化示例与分步引导,而进阶学习者则期待拓展解题思路,传统统一输出模式难以兼顾这两种需求;职场场景中,新人查询“项目管理流程”时需要基础操作指南,而资深管理者可能更关注风险控制节点,单一答案无法满足角色差异化诉求。

然而,现有方法存在显著局限。思维链(Chain of Thought, CoT) 采用线性推理路径,如“问题→公式→计算→结论”的单向流程,无法并行探索用户潜在需求维度,例如同时考虑学习者的知识盲区与学习偏好。思维树(Tree of Thoughts, ToT) 虽引入分支搜索,但树状结构更适用于数学证明等封闭领域,在开放文本场景中,用户意图的多样性会导致分支爆炸,大幅降低推理效率。此外,主流大模型作为黑盒模型(Black-box Model),其决策过程不可解释,难以针对用户反馈动态调整个性化策略,进一步限制了回答的适配精度。

传统方法的核心痛点在于:线性思维无法覆盖用户需求的多维度特征,树状搜索在开放场景中效率低下,而黑盒模型缺乏个性化调整的可解释性基础。

Pathways of Thoughts方法总览:让LLM像人类一样“发散思考”

Pathways of Thoughts(PoT)方法通过构建“思维导航系统”模拟人类认知过程,其核心框架包含路径探索→多样化生成→优势聚合三大协同阶段,实现大语言模型(LLM)从线性推理到发散式思考的范式突破。该框架通过动态规划机制引导思维路径的自主演化,无需对模型参数进行调整即可适配复杂问答场景。

Pathways of Thoughts 方法框架

核心阶段解析

路径探索阶段类比人类思考的“头脑风暴”过程,模型基于问题上下文生成多条潜在思维路径。每条路径通过认知操作(如分解问题、关联知识、假设验证)逐步延展,形成树状思维网络。此阶段强调探索的广度,确保覆盖问题的多维度解决方案。

多样化生成阶段聚焦路径差异化,通过引入随机性与约束条件平衡探索空间。模型在保持逻辑连贯性的前提下,主动规避思维同质化,生成具有互补性的推理链条。例如在历史事件分析任务中,既会生成政治维度的解释,也会同步探索经济、文化等交叉视角。

优势聚合阶段作为决策中枢,对多样化路径进行评估与整合。通过强化学习机制量化各路径的有效性指标(如事实一致性、逻辑完备性),加权融合优质推理片段,最终输出兼顾深度与全面性的答案。

MDP模型的通俗解读

PoT方法的底层运行机制基于马尔可夫决策过程(MDP)构建,其核心思想可简化为“状态-动作”动态循环:

  • 状态(State):对应模型的“思维历史”,即已生成的推理序列与中间结论的集合,构成决策的上下文基础。
  • 动作(Action):定义为原子化认知操作,包括但不限于“细化子问题”“引用知识库”“修正前提假设”等,引导思维路径的下一步演化。

MDP模型核心特征:通过“状态记忆-动作反馈”闭环,PoT实现思维过程的可追溯与可调控。与传统链式推理不同,该模型允许在任意节点回溯调整路径,模拟人类“反思-修正”的认知习惯。

零微调特性的技术价值

PoT方法的显著优势在于零微调部署能力,通过纯提示工程与外部机制设计实现性能提升。这一特性大幅降低了计算资源消耗,同时避免了模型在特定任务上的过拟合风险,使其能够快速适配法律文书分析、学术论文综述等专业领域,在保持通用性的同时拓展应用边界。

三大核心贡献:PoT如何推动个性化问答技术边界?

  • 多路径思维空间构建:通过非确定性状态转移机制实现推理路径的并行探索,突破传统链式推理的局部最优陷阱,使模型能同时评估多条语义关联路径的有效性。
  • 个性化认知图谱融合:将用户历史交互数据与领域知识图谱进行动态关联建模,通过注意力权重动态分配机制实现个性化偏好与通用知识的精准匹配,提升回答的场景适配度。
  • 长文本语境状态追踪:引入动态窗口注意力机制与记忆缓存更新策略,实现对超长文本上下文的分段式深度理解,解决传统模型在长文档处理中的信息衰减问题。

深度拆解:PoT的“思维引擎”如何工作?

思维过程建模:当LLM成为“决策-环境”双角色MDP

在长文本个性化问答中,将LLM的思维过程建模为马尔可夫决策过程(MDP)是实现多向思维路径的核心方法。这一建模框架可通过“厨师做菜”的类比直观理解:MDP循环对应“选菜谱→试做→尝味→调整”的动态决策链,其中LLM同时扮演决策者(选择烹饪策略)与环境(提供味觉反馈与状态更新)的双重角色。

MDP循环的核心映射关系

  • 选菜谱(规划阶段):对应LLM基于用户需求与文本上下文生成初始回答策略,如确定个性化叙事结构或专业术语密度;
  • 试做(执行阶段):LLM输出中间结果,相当于厨师按菜谱进行食材处理与烹饪操作;
  • 尝味(反馈阶段):通过内部评估机制(如一致性检测、相关性评分)判断当前输出质量,类似品尝菜品咸淡;
  • 调整(修订阶段):根据反馈优化策略,例如补充背景知识或调整逻辑顺序,形成思维迭代。

核心动作集(规划、个性化、修订等)构成MDP的动作空间,而状态更新机制则通过记录每次决策的上下文变化(如用户偏好权重调整、知识单元激活状态)捕捉完整思维轨迹。这种动态状态记录为后续路径分支提供了历史依赖信息,使LLM能够在不同决策节点探索多样化的推理路径,最终实现个性化问答的多向性与适应性。

多向路径生成:如何让LLM“想不同”?

多向路径生成机制的核心在于突破传统单一思维模式,通过输入驱动过程驱动两种差异化策略实现LLM的“发散思考”。“给不同食材”模式强调通过多样化初始输入(如个性化需求参数、场景化约束条件)引导思维路径分化,而“不同烹饪步骤”模式则聚焦于调整推理流程(如是否启用修订机制、是否调用外部知识库)实现过程多样性。

图 6 多向思维路径案例对比

路径特征对比

  • 蓝色路径(输入驱动):以用户个性化需求为起点,直接生成适配特定场景的回答,思维特点为“目标导向”;
  • 橙色路径(过程驱动):通过多轮修订与知识融合优化输出,思维特点为“迭代进化”。

两种策略的协同应用可显著提升LLM处理复杂问题的灵活性,使模型既能快速响应个性化需求,又能通过过程优化保证回答质量,最终实现“同题多解”的发散思考价值。

路径聚合:如何“综合众智”生成最优回答?

路径聚合机制的核心价值在于模拟人类群体决策中的集体智慧涌现过程,这一过程可类比为团队会议汇总意见的场景:当团队成员各自提出解决方案后,最优决策往往并非简单采纳某个人的“最佳方案”,而是通过整合不同意见的合理成分形成共识。在长文本问答系统中,这种“综合众智”的思路体现为Mixture-of-N策略对传统Best-of-N方法的超越。

Best-of-N策略通过贪婪选择单一路径的输出结果,本质上延续了“单一专家决策”的思维模式,容易陷入局部最优陷阱——某条路径可能在特定维度表现突出(如事实准确性),但在其他维度(如逻辑连贯性或信息完整性)存在缺陷。而Mixture-of-N策略通过动态加权机制整合多路径输出,既保留各路径独特视角,又通过全局优化消除单一决策偏差,其优势在复杂问答场景中尤为显著。

Mixture-of-N的核心优势:通过对不同推理路径的贡献度进行量化标注(如事实支撑度、逻辑完备性、信息覆盖率等维度),系统能够识别各路径的优势领域,进而实现“优势互补”。例如,路径A可能擅长提取关键事实,路径B专注于构建推理链条,路径C则擅长语言表达优化,三者的有机融合可生成兼具准确性、逻辑性与可读性的回答。

图6的案例直观展示了这一过程:当系统处理“分析某历史事件的多维度影响”这一复杂问题时,7条推理路径分别从政治、经济、社会、文化等不同视角展开分析。通过贡献度标注可见,单一最优路径(路径3)的信息覆盖率仅为62%,而Mixture-of-N策略通过加权整合所有路径的有效信息,最终将信息覆盖率提升至91%,同时逻辑一致性指标从78%提高至89%,验证了多路径聚合在突破单一视角局限方面的显著效果。这种机制不仅提升了回答质量,更赋予系统处理开放性、多维度问题的鲁棒性。

实验验证:PoT的性能究竟有多强?

基准测试:全面超越现有方法

为验证多向思维路径(PoT)在长文本个性化问答中的实际效能,本研究通过多领域基准测试对其性能进行系统评估。测试结果显示,PoT在多个评估维度上显著优于现有基线方法,尤其在主观类问题处理场景中表现出独特优势。

表 1:各方法在不同领域的性能对比

从表 1 数据可见,在“生活方式”这一典型主观领域,PoT 取得 49.6% 的综合得分,较现有基线方法的最高值(43.8%)提升 5.8 个百分点。这一性能差异可类比于学科考试中的得分分布:若将各方法比作考生,基线方法如同在数学、物理等客观题占比高的学科中表现稳定(得分集中在 40%-43%),而 PoT 则在语文作文、历史论述等主观题占比高的学科中展现显著优势(“生活方式”领域得分接近 50%)。

性能差异的核心原因在于主观类问题的本质特性:此类问题往往缺乏唯一标准答案,需要模型综合背景知识、用户偏好与语境信息进行多维度推理。PoT 通过构建多向思维路径网络,能够同时探索“事实依据-情感倾向-价值判断”等平行推理链条,最终生成更贴合用户个性化需求的回答;而基线方法多采用单一推理路径,在需要价值整合与语境适配的场景中易陷入局部最优解。

这种优势在教育咨询、健康管理等强主观领域进一步放大,印证了多向思维机制对复杂问答场景的适应性提升。

关键参数影响:路径长度与数量的“黄金配比”

在多向思维模型的工程实现中,路径长度与数量的参数配置直接决定长文本问答系统的推理效率与答案质量。通过实验数据可视化可发现,二者存在显著的“边际效益拐点”,其优化需遵循类似复杂系统资源配置的“黄金配比”原则。

路径长度与问答质量关系曲线
图 2:路径长度与问答质量关系曲线

路径数量与信息增益关系曲线
图 3:路径数量与信息增益关系曲线

路径长度的调控可类比于跑步训练强度:过短的路径(如小于 5 步推理)会导致文本语义挖掘不充分,关键信息提取率下降约 37%;而过长路径(如超过 20 步推理)则引发“推理疲劳”,表现为注意力分散与上下文漂移,使答案准确率降低 29%。图 2 中曲线拐点(约 12 - 15 步)对应最优长度,此时信息覆盖度(92%)与推理精度(88%)达到动态平衡,这一阈值可通过预训练语言模型的注意力衰减系数推导得出。

路径数量的优化规律则类似团队决策人数配置:当路径数量少于 8 条时,思维多样性不足,易陷入局部最优解;增至 16 条路径时,问答系统的答案丰富度达到峰值(信息熵 4.2),但继续增加会导致“意见重复”现象——超过 16 条后,新增路径贡献的独特观点占比低于 5%,边际效益显著递减(图 3)。这一拐点与人类群体决策中的“15 - 20 人有效协作规模”规律高度吻合,印证了生物认知与机器推理的共通性。

核心启示:路径长度与数量的拐点并非简单的经验值,而是模型复杂度、文本长度与任务类型的函数。工程实践中需通过动态调节机制(如基于文本熵的路径生成阈值)实现“黄金配比”,在 12 - 15 步路径长度与 12 - 16 条路径数量的参数空间内,可同时保障推理深度、多样性与计算效率。

曲线拐点的工程意义在于为资源分配提供量化依据:当路径长度超过 15 步或数量超过 16 条时,系统需触发剪枝机制,通过注意力权重过滤冗余推理分支,将计算资源集中于高价值路径。这种动态调控策略可使模型在保持 90% 问答质量的前提下,降低 40% 的推理耗时,为长文本个性化问答的工业化应用提供了关键技术参考。

多样化策略与泛化能力:PoT是否“挑模型”?

PoT 的多样化策略可类比于“不同风格的解题思路”——如同面对同一数学问题,有人偏好代数推演,有人擅长几何建模,多样化路径能从多角度激活模型的推理潜能。这种设计不仅提升复杂任务的求解鲁棒性,更关键的是降低了对模型规模的依赖门槛。

不同风格的解题思路示意图

在模型兼容性测试中,研究团队选择 GPT - 4o - mini 这一轻量级模型进行验证。实验结果显示,PoT 方法在该小模型上仍实现了 9.4% 的性能提升,表明其核心机制不依赖超大参数量的模型基座,而是通过结构化思维路径设计释放通用模型的内在推理能力。

PoT 在小模型上的性能提升对比

关键发现:PoT 的多样化策略突破了传统方法对大模型的“路径依赖”,在 GPT - 4o - mini 等小模型上的 9.4% 提升,证明其可在资源受限场景下实现推理能力的有效增强,为低成本部署提供了技术可行性。

这种“不挑模型”的特性,使得 PoT 在边缘计算、嵌入式设备等资源受限场景中具备实用价值,推动多向思维技术从实验室走向更广泛的产业应用。

未来展望:PoT的下一步进化方向

多向思维(PoT)的发展轨迹可类比手机摄影从单摄到多摄的技术跃迁——单镜头时代局限于单一视角,而多摄系统通过广角、长焦、微距等协同工作,实现了场景适应性的指数级提升。PoT技术正处于类似的关键进化节点,其未来发展将围绕技术架构革新、应用场景深化与核心挑战突破三大方向展开。

在技术迭代层面,路径并行计算将成为核心突破点。当前PoT模型多采用串行路径生成机制,面临推理延迟与资源消耗的双重瓶颈。下一代系统需构建类似多摄传感器同步触发的并行处理架构,通过分布式计算框架实现多思维路径的异步生成与动态剪枝,这不仅能将长文本问答的响应速度提升30%以上,还能通过路径间的交叉验证增强答案鲁棒性。

应用场景的拓展将呈现"垂直深耕+跨界融合"特征。教育领域,PoT可基于学习者的知识图谱生成差异化思维路径,例如为逻辑型学生提供演绎推理引导,为直觉型学生设计归纳式问题链,实现真正意义上的"因材施教"。职场咨询场景中,系统能同时模拟行业专家、人力资源顾问、职业规划师等多角色思维路径,为用户提供涵盖技能提升、人脉拓展、转型风险评估的立体化建议。

技术进化伴随的挑战不容忽视。路径冗余问题如同多摄系统的图像数据冗余,过度生成的思维路径会导致计算资源浪费与决策干扰,需通过强化学习优化路径评估函数,动态调整路径数量与深度。隐私保护方面,多路径推理过程中涉及的用户偏好、认知模式等敏感数据,需借鉴联邦学习技术构建"数据可用不可见"的安全计算范式,在释放PoT价值的同时筑牢数据安全防线。

核心进化逻辑:从"单一路径生成"到"多路径协同优化"的技术跃迁,本质是模拟人类大脑的分布式认知机制,这一过程既需突破计算架构的物理限制,也要平衡创新应用与风险防控的动态关系。

PoT技术的终极目标,是实现从"机器模拟思维"到"思维增强工具"的跨越,正如多摄手机不仅复刻人眼功能,更通过算法融合创造出超越人眼的摄影能力,未来的PoT系统也将成为拓展人类认知边界的核心基础设施。

结语:多向思维——LLM个性化的“新范式”

多向思维为 LLM 个性化开辟了“新范式”,其核心在于从传统“单线程思考”转向“多线程协作”的认知模式革新。这一突破不仅重构了长文本问答的处理逻辑,更为开发者提供了兼顾深度与个性化的技术路径。我们鼓励社区积极探索 PoT 框架在智能助手、内容创作等场景的实践,推动个性化交互向更自然、更精准的方向演进。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王哥儿聊AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值