【LLM 论文】Self-Consistency — 一种在 LLM 中提升 CoT 表现的解码策略

论文:Self-Consistency Improves Chain of Thought Reasoning in Language Models
⭐⭐⭐⭐⭐
ICLR 2023, Google Research

文章目录

论文速读

本工作提出了一种解码策略:self-consistency,并可以用于 CoT prompting 中。

该策略提出的直观感觉是:人类在解决复杂问题时,往往会慎重考虑,并可能会尝试使用多种推理路径来解决从而保证得到的答案的正确性。self-consistency 就是基于这种思想,让 LLM 在解决复杂推理问题时,让他尝试多个推理路径,每个推理路径就是一次 CoT 的解决过程,每个可以得到一个答案,最终的答案就是其中出现次数最多的答案

self-consistency 用李宏毅老师的 PPT 来解释的话,也就是如下的方式:

self-consistency

普通的 CoT 与使用了 self-consistency 解码策略的对比如下:

CoT对比self-consistency

self-consistency 的解码过程主要就是“sample-and-marginalize”:

  1. 让 LLM 的 decoder 去产生多个推理路径,每个推理路径会导致一个 final answer(区别于普通 CoT 的 greedy decode)
  2. marginalize out 这些推理路径,在 final answer set 中找出 the most consistent answer

同时论文指出,有时候 CoT 的使用让 LLM 的表现可能还不如标准的 prompt,这时候引入 Self-consistency 可以提升 CoT 的表现。如下是实验证明:

在这里插入图片描述
self-consistency 可以与目前的采样算法兼容,比如 temperature sampling、top-k sampling、nucleus sampling

有些工作是额外训练一个 verifier 来验证答案的正确性,self-consistency 的优点在于:

  • 更加简单,self-consistency 是完全无监督的
  • 只使用了一个 language model,而其他方法会集成多个 model

并且最终的表现比 sample-and-rank、beam search、ensemble-based 等方法要表现更好。

LLM(基于学习的管理方法)是一种在智能决策中广泛应用的方法。LLM适用于各种领域,如金融、医疗、交通等。 首先,LLM利用机器学习算法对大量数据进行分析和预测。它可以通过学习历史数据中的模式和趋势,将其应用于决策问题。通过分析数据,LLM可以发现隐藏在大量数据中的规律和关联,为决策提供有力的支持。例如,在金融领域中,LLM可以分析市场数据、企业财务报表等信息,预测股票的涨跌趋势,从而帮助投资者做出明智的投资决策。 其次,LLM还可以进行优化和调整。它可以不断学习和改进,根据反馈信息进行自适应调整。通过与环境的互动,LLM可以不断优化模型,并根据情况调整决策策略。例如,在交通管理中,LLM可以通过分析交通流量数据,根据实时情况调整路线规划,降低交通拥堵,提高通行效率。 此外,LLM在智能决策中的应用还包括风险评估、问题诊断和策略制定等方面。通过对历史数据和现有情况的分析,LLM可以预测潜在风险和问题,并提供相应的策略和措施。例如,在医疗领域中,LLM可以通过分析患者的病历和病情数据,预测患者的病情发展趋势,帮助医生制定更准确的治疗方案。 综上所述,LLM在智能决策中的应用广泛且重要。它利用机器学习算法对大量数据进行分析和预测,为决策提供有力的支持。同时,LLM还可以进行优化和调整,根据环境的变化不断改进决策策略LLM的应用可以提高决策的准确性和效率,在各个领域发挥重要作用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值