LLM COT
文章平均质量分 67
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
CRITIC-COT: BOOSTING THE REASONING ABILITIES OF LARGE LANGUAGE MODEL VIA CHAIN-OFTHOUGHTS CRITIC
自我批评已成为提高LLM推理能力的重要机制。然而,目前的方法主要涉及基本提示,未经进一步训练,往往过于简单化,导致准确性有限。而且,缺乏对LLM批评能力与其任务解决绩效之间关系的深入研究。为了解决这些问题,我们提出了 Critic-CoT,这是一种新颖的框架,通过逐步的 CoT 推理格式和远程监督数据构建,将LLM推向类似 System-2 的批评家能力,而不需要人工注释。原创 2024-09-23 09:33:50 · 135 阅读 · 0 评论 -
Chain of Thought Empowers Transformers to Solve Inherently Serial Problems
指示模型生成一系列中间步骤,即思维链(CoT),是提高大型语言模型(LLM)在算术和符号推理任务中的准确性的一种非常有效的方法。然而,CoT背后的机制尚不清楚。这项工作通过表现力的视角,为CoT对仅解码器Transformer的强大功能提供了理论上的理解。从概念上讲,CoT使模型能够执行固有的串行计算,这是Transformer所缺乏的,尤其是在深度较低的情况下。在给定输入长度n的情况下,之前的研究表明,具有有限精度poly(n)嵌入大小的恒定深度Transformer只能解决没有CoT的TC0。原创 2024-09-19 16:30:48 · 151 阅读 · 0 评论 -
Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought
我们介绍了一种新的框架,LM Guided CoT,它利用轻量级(即<1B)语言模型(LM)来指导推理任务中的黑盒大(即>10B)LM。具体来说,轻量级LM首先为每个输入实例生成一个基本原理。然后,冻结的大型LM会被提示根据轻量级LM生成的基本原理预测任务输出。我们的方法是资源高效的,因为它只需要训练轻量级的LM。我们通过1)知识蒸馏和2)从面向理论基础和面向任务的奖励信号中强化学习来优化模型。我们使用多跳提取式问答(QA)基准、HotpotQA和2WikiMultiHopQA来评估我们的方法。原创 2024-07-24 09:56:36 · 120 阅读 · 0 评论 -
Injecting Salesperson’s Dialogue Strategies in Large Language Models with Chain-of-Thought Reasoning
最近对对话系统和语料库的研究主要集中在两大类:面向任务(TOD)和开放域(聊天)对话。TOD系统帮助用户完成特定任务,而开放域系统旨在创建引人入胜的对话。然而,在现实世界的场景中,用户意图通常会在交互过程中显现出来。最近的一项研究引入了SalesBot,它模拟了从闲聊到任务导向场景的对话,以培训销售代理。不幸的是,最初的数据缺乏平稳的过渡和连贯的长时间对话,导致销售与客户互动的自然性较差。为了解决这些问题,本文提出了改进的数据集SalesBot 2.0。原创 2024-07-12 09:21:58 · 56 阅读 · 0 评论 -
ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting
思维链提示可以增强大型语言模型的推理能力,成为解决复杂推理任务的主要方法。现有的CoT合成方法通常侧重于更简单的推理任务,从而导致低质量和不一致的CoT提示。为了应对这一挑战,我们对CoT提示进行了实证研究,并介绍了CoTGenius,这是一种用于自动生成高级CoT提示的新框架。CoTGenius是基于三种主要的进化策略开发的,即复杂化、多样化和特定化,以及两种过滤机制:进化成功判断和正确性验证。原创 2024-06-07 22:34:44 · 179 阅读 · 0 评论 -
Stepwise Self-Consistent Mathematical Reasoning with Large Language Models
使用大型语言模型进行复杂的数学推理是困难的,主要是由于多步骤推理的复杂性。这一过程的主要挑战包括(1)选择关键的中间结果来推进程序,以及(2)对潜在解决方案的有限探索。为了解决这些问题,我们引入了一种新的算法,即逐步自洽思想链(SSC-CoT)。SSCCoT采用了一种基于各种推理链的交集来选择中间步骤的策略。此外,SSC-CoT使模型能够通过查询包括相关领域知识的知识图谱来发现关键的中间步骤。为了验证SSC CoT,我们提出了一个新的数据集TriMaster100,专门用于复杂的三角问题。原创 2024-03-28 19:52:54 · 176 阅读 · 0 评论 -
Zero-Shot Chain-of-Thought Reasoning Guided by Evolutionary Algorithms in Large Language Models
大型语言模型(LLM)通过应用零样本思维链(CoT)提示,在不同的任务中表现出了显著的性能,并表现出了令人印象深刻的推理能力。然而,由于句子前缀在预训练阶段的演变性质,在所有任务实例中使用相同CoT提示的现有零样本CoT提示方法可能不是最佳的。在本文中,我们介绍了一种新颖的零样本提示方法,该方法利用进化算法动态生成LLM的不同提示。我们的方法包括初始化两个CoT提示,基于LLM执行进化操作以创建不同的集合,并利用LLM为给定问题选择合适的CoT提示。原创 2024-03-20 11:20:31 · 69 阅读 · 0 评论