Concise Thoughts:仅通过长度限制,获取更简明的CoT能大幅度提升效果

0b7b81cff13435b731aa3af946150c99.png

论文:Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost

地址:https://arxiv.org/pdf/2407.19825

研究背景

  1. 研究问题:本文研究了大型语言模型(LLMs)在生成回答时输出长度的控制问题,特别是如何通过提示工程技术(如链式思维提示)来增强输出的解释性和正确性,同时减少生成时间。

  2. 研究难点:主要难点在于链式思维提示虽然能提高输出的正确性,但会导致输出长度增加,从而增加模型的生成时间。这在需要与用户进行交互的应用程序中是不可取的。

    8af193c1047b04756ff0e03651dfb318.png

  3. 相关工作:现有工作主要集中在提高LLMs的准确性,但随着模型规模的增大,生成的回答往往更加冗长和复杂,导致其他问题,如幻觉和不必要的冗长解释。为了过滤掉无用的推理,已有研究提出了多跳处理技术。此外,提示工程技术如链式思维提示也被提出以提高问答任务的准确性,但其缺点是增加了输出长度。

研究方法

这篇论文提出了三种新的度量标准来评估LLMs生成的答案的正确性和简洁性,并提出了一种名为约束链式思维(CCoT)的新提示工程策略,以鼓励LLMs限制其推理长度。具体来说,

  1. 简洁正确性度量:论文提出了三个新的度量标准来评估LLMs生成的答案的正确性和简洁性。这些度量标准通过将简洁性方面整合到经典准确性度量中,重新定义了准确性度量。

  • Hard-k Concise Accuracy (HCA):衡量不超过用户指定长度k的正确答案的比例。公式如下:

cbd143ada14066207206d22befbe3bdc.png

其中,17ffced7e96e92000ae657fce45f1228.png

  • Consistent Concise Accuracy (CCA):进一步推广了前面的度量标准,还考虑了所有输出长度的一致性。公式如下:

    28b9c24d750010397a94788370547b0d.png

    其中,a4fd312f981849f6e312d76d5399c877.png

2. 约束链式思维(CCoT):为了控制CoT推理的长度,论文引入了一种约束链式思维提示,要求模型生成的输出长度小于给定的最大值。具体形式为:

172132c14f6894b6da3f8914908e291a.png

其中,x_l表示指定输出长度的句子,例如“并限制答案长度为30个单词”。

6665d3823bef7eb22dc604bb18831271.png

实验设计

实验在Text Generation Inference (TGI)平台上进行,使用了8个NVIDIA A100 GPU。具体设计如下:

  1. 数据集:实验在GSM8k测试集上进行,该数据集包含约1.3k个数学问题,主要用于评估模型处理数学推理和计算步骤的能力。

  2. 模型:评估了五种公开可用的预训练LLMs,包括Vicuna-13b-v1.5、指令微调模型Falcon-40b-instruct、Falcon-7b-instruct以及两个利用私有数据进行训练和增强的模型Llama2-7b-chat-hf和Llama2-70b-chat-hf。

  3. 提示设置:对每个模型进行了普通提示(基础)、CoT和不同长度约束(15、30、45、60、100)的CCoT评估。

结果与分析

  1. 生成时间和准确性:CCoT提示能够显著减少大多数大型模型和大多数中型模型的生成时间,同时在许多情况下也优于普通提示。例如,对于Llama2-70b模型,经典CoT的平均生成时间为30.09秒,而长度约束为100的CCoT生成时间几乎减半,达到23.86秒。

    9b1d25555945a6c4109fc80ab4c4fe62.png

  2. 模型差异:较大的模型(如Falcon-40b和Llama2-70b)从CCoT中受益,能够在减少生成时间的同时提高准确性。而较小的模型(如Falcon-7b和Llama2-7b)则难以有效处理CCoT提示条件,导致生成时间增加或答案不准确。

  3. 输出长度控制:CCoT提示显著影响了输出长度,尽管在实践中LLMs并不总是能够严格遵守给定的长度限制,特别是对于较小的值(如15、30或40),这些值对小模型来说更具挑战性。

  4. 简洁正确性度量:HCA、SCA和CCA度量表明,CCoT提示在保持较高准确性的同时,能够有效控制输出长度。例如,对于Llama2-70b模型,使用CCoT-30的准确性为37.07%,而使用CCoT-100的准确性提高到41.77%。

    3ef78364117c81ec76ca470f3783ba06.png

总体结论

本文强调了LLMs生成的答案简洁性的重要性,并提出了三种新的性能指标来评估输出的正确性和简洁性。提出的约束链式思维(CCoT)提示策略能够在不牺牲准确性的前提下,有效控制输出长度,提高模型的时间可预测性。实验结果表明,CCoT在大模型中效果显著,但在小模型中效果有限。未来的研究方向包括深入理解小模型在处理CCoT提示时的困难,并将所提出的指标整合到微调过程中。

优点与创新

  1. 提出了三个新颖的指标,用于评估LLM输出的正确性和简洁性,强调了简洁和效率的重要性。

  2. 提出了约束链式思维(CCoT)提示策略,鼓励LLMs限制其推理长度,从而提高其时间可预测性。

  3. 在不同的预训练LLMs上进行了多项实验,展示了CCoT在提高大型模型的准确性和响应时间方面的有效性,同时指出了不同模型大小的局限性。

  4. 通过实验验证了所提出的度量标准在评估简洁正确性方面的益处,并展示了CCoT提示策略的效果。

  5. 提供了详细的实验结果和分析,展示了CCoT在不同模型和任务上的表现,为进一步研究提供了基础。

不足与反思

  1. 并非所有模型都能有效控制其输出长度,特别是小型模型(如Falcon-7b、Llama2-7b和Vicuna-13b)在遵守CCoT提示的长度约束方面存在困难。这些困难可能受到训练数据、模型参数数量等多种因素的影响,需要进一步研究和评估。

  2. 对于大型模型(如Falcon-40b和Llama2-70b),CCoT能够提高准确性和效率,但对于其他模型(如Falcon-7b),CCoT并未显著提高准确性。未来的研究可以分析简洁性对潜在幻觉现象或错误推理的影响。

  3. 提出的度量标准虽然能够评估输出的简洁性和正确性,但在实际应用中可能需要进一步调整和优化,以适应不同的任务和模型。

  4. 未来工作可以将所提出的度量标准整合到微调过程中,以更好地评估和改进LLMs的性能。

本文由元宝辅助人工完成。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

f69df2f21028e1a6353cedf48c680ae1.png

id:DLNLPer,记得备注呦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值