幻觉相关文献

最新推荐文章于 2024-12-28 20:01:14 发布

Wwwilling

最新推荐文章于 2024-12-28 20:01:14 发布

阅读量984

点赞数 5

文章标签： llama

本文链接：https://blog.csdn.net/qq_43058281/article/details/137235545

版权

本文围绕大型语言模型展开研究，引入自熟悉度技术减少幻觉，探讨了幻觉检测和纠正方法、数据集等。还介绍了啄木鸟等免训练方法，以及多种增强模型能力的技术，如知识增强、指令微调等，同时提出了编辑知识图嵌入、无数据量化等新任务和算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

• ZERO-RESOURCE HALLUCINATION PREVENTION FOR LARGE LANGUAGE MODELS
• 在本文中，我们引入了一种新的预检测自评估技术，称为自熟悉度，该技术侧重于评估模型对输入指令中存在的概念的熟悉程度，并在不熟悉概念的情况下保留响应的生成。这种方法模仿了人类避免对不熟悉的话题做出反应的能力，从而减少了幻觉。

幻觉的检测和纠正方法

先前对幻觉检测和纠正的研究主要集中在特定任务的条件文本生成，如抽象摘要Maynez et al (2020);Wang等(2020);Cao等人(2021)，Rohrbach等人(2018);Biten等人(2022)，对话生成Shuster等人(2021)，机器翻译Zhou等人(2020);Wang et al . (2020b;2021)。由于这些作品具有高度的任务特异性，它们无法解决公开对话中的幻觉问题。
对于开放式对话设置，这些方法通常根据所采用的策略分为两组。第一组利用思维链(CoT)或快速规划来评估和修正响应，Lee et al (2022);Gou等人(2023);Zhang等(2023a);Min等人(2023);Peng et al . (2023);Huang et al . (2023);谢等(2023);Yue等人(2023)。一个值得注意的例子是CRITIC Gou等人(2023)，其中CoT流程与外部搜索引擎的补充输入一起部署，以提高响应质量。某些工作不需要外部知识Zhang等(2023b);Mundler等人(2023)，经常直接要求模型评估输出的忠实度。尽管如此，这些方法可能会受到限制，因为它们是针对特定响应设计的，并且高度依赖于模型的内部推理能力。另一个挑战在于算法输出通常是自由文本，这可能使实际的分类阈值不明确。
第二类方法Manakul et al (2023);Min等人(2023)强调使用语言模型参数，如标记概率序列，来确定幻觉水平。这些方法通常表现出优异的泛化能力，可以提供精确的输出分数。Manakul等人(2023)率先使用基于参数的方法进行开放式文本生成。在自检GPT中，将困惑度、抽样和无条件概率结合使用来估计幻觉水平。然而，这项工作只评估与传记相关的问题，与CoT技术相比，模型的可解释性显着降低。

幻觉检测数据集
目前用于公开对话中幻觉检测的数据集主要集中在检测后的场景。在这些数据集中，Lin等人(2021);Liu et al . (2022);Muhlgay等人(2023);Li等人
(2023);Manakul et al (2023);Min等人(2023);Mundler等人(2023);Zhang等人(2023b)认为，任务¨包括选择正确的回答或确定回答是否错误。然而，这些数据集受到某些限制。首先，这些数据集通常来自于写传记这样的单一任务，而没有考虑到不同语言模型之间的差异。
每个模型可以有不同的背景知识，使一个模型能够识别另一个模型可能忽略的幻觉反应。此外，即使一个模型可以准确地对特定的幻觉反应进行分类，也不能保证该模型将来不会产生不同的幻觉反应。因此，创建一个用于验证预检测设置的新数据集非常重要。

• SELFCHECKGPT：这是一种简单的基于抽样的方法，可用于以零资源方式(即无需外部数据库)对黑箱模型的响应进行事实检查。

大型语言模型的幻觉
幻觉已经在文本生成任务中进行了研究，包括摘要(Huang et al .， 2021)和对话生成(Shuster et al .， 2021)，以及各种其他自然语言生成任务(Ji et al .， 2023)。自一致性解码已被证明可以改善复杂推理任务中的思维链提示性能(Wang et al .， 2023)。此外，Liu等人(2022)引入了一个幻觉检测数据集，然而，文本是通过干扰事实文本获得的，因此可能无法反映真实的LLM幻觉。
最近，Azaria和Mitchell(2023)训练了一个多层感知分类器，其中使用LLM的隐藏表示作为输入来预测句子的真实性。然而，这种方法是一种使用LLM内部状态的白盒方法，可能无法通过API调用获得，并且需要标记数据进行监督训练。另一种最近的方法是自我评估(Kadavath等人，2022)，其中法学硕士被提示评估其先前的预测，例如，预测其生成的响应/答案为真的概率。

序列级不确定性估计
令牌概率已被用作模型确定性的指示。例如，OpenAI的GPT-3 web界面允许用户显示令牌概率(如图2所示)，并且已经研究了基于任意不确定性和认知不确定性的自回归生成的进一步不确定性估计方法(Xiao and Wang, 2021;Malinin and Gales, 2021)。此外，条件语言模型得分也被用于评估文本的属性(Yuan et al .， 2021;Fu et al, 2023)。最近，语义不确定性被提出用于解决自由形式生成任务中的不确定性，其中概率附加到概念而不是标记(Kuhn et al, 2023)。

事实验证
现有的事实验证方法遵循索赔检测、证据检索和判决预测的多阶段流程(Guo et al .， 2022;钟等人，2020)。然而，这些方法需要访问外部数据库，并且可能有相当大的推理成本。

• Woodpecker: Hallucination Correction for Multimodal Large Language Models
• 在本文中，我们开辟了一条不同的道路，介绍了一种名为啄木鸟的免训练方法。就像啄木鸟治愈树木一样，它从生成的文本中挑选并纠正幻觉。
mllm中的幻觉
近年来，传销的幻觉现象越来越受到人们的关注。这主要是因为这个问题直接影响到mllm的可靠性。目前对mlms幻觉的研究主要集中在两个方面，即评估/检测[8,18,34]和缓解[20,23,33]。之前的工作通常要么训练一个分类模型来区分幻觉[8]，要么根据真实答案检查输出文本以确定幻觉是否发生[18,34]。
为了缓解幻觉，以往的工作主要集中在优化数据收集过程和训练方案上。
LRV-Instruction[20]构成负面实例，避免过度自信。此外，GroundTruth答案的文本长度受到严格控制，因为观察到较短的回答不太可能产生幻觉。类似地，VIGC[33]采用迭代过程，每次生成并连接简短答案。通过这种方式，它试图在不影响细节的情况下确保准确性。
虽然以前的工作试图开发具有较少幻觉的mllm，但我们的主要目标是通过修改幻觉部分来改进mllm的反应。具体来说，我们设计了一个包含现成模型的免培训框架。这免去了收集指令数据和资源密集型训练的复杂性。因此，我们的框架可以很容易地与各种mlm集成，作为一个通用的即插即用模块。
Knowledge-augmented LLM
由于法学硕士局限于从预训练中获得的固有知识，各种各样的工作都致力于用来自预定义知识库[3,5,14,28]或互联网[29,31]的外部知识来增强法学硕士。
作为这一观点的自然延伸，最近，研究人员探索使用知识作为证据来减轻法学硕士中的事实性幻觉[10,27]。具体来说，这些工作使用相关知识作为背景信息来改进可能错误的输入声明，从而提高响应的真实性。我们的方法的共同之处在于，我们使用与给定图像相关的信息来纠正潜在的错误主张。然而，将这个想法转移到视觉语言领域并非易事。这是因为纯语言对应物通常只处理文本并通过检索获得相关知识，而对于图像-文本对则不适合这样做。此外，知识增强法学硕士更注重减轻事实谬误，而我们更注重减轻视觉幻觉。针对这些关键的差异，我们设计了一种基于图像和查询的结构化视觉知识库的构建策略。我们还将探讨如何以一种有组织的方式处理对象级和属性级幻觉，稍后我们将对此进行说明

llm辅助视觉推理
根据调查中的分类[41]，我们提出的框架与llm辅助视觉推理模型[2,7,13]密切相关。主要思想是，我们可以利用llm强大的推理和指令遵循能力来帮助完成视觉或多模式任务。llm扮演的典型角色包括任务调度器[9,24,30,38]，推理器[37,39,42,46]或语言精炼器[35,43,45,48]。在这项工作中，我们利用法学硕士强大的推理和语言熟练程度来帮助关键概念提取，问题制定和幻觉纠正过程。

• WizardLM:授权大型语言模型遵循复杂的指令
• 本文中，我们展示了使用LLM而不是人工来创建具有不同复杂程度的大量指令数据的途径。从一组初始指令开始，我们使用我们提出的进化指令逐步将它们重写为更复杂的指令。然后，我们混合所有生成的指令数据来微调LLaMA。
封闭域指令微调
早期的指令跟随训练工作[10,33]涉及LMs中的跨任务泛化，其中LMs在广泛的公共NLP数据集上进行微调，并在不同的NLP任务集上进行评估。T5[34]进行了最早的尝试，使用统一的文本到文本格式一起训练自然语言处理(NLP)任务，如问答、文档摘要和情感分类。FLAN[10]、ExT5[9]、T0[12]和KnowDA[35]等作品将NLP任务的数量增加到100个左右，并为每个任务精心设计了几个指令[36-39]。此外，ZeroPrompt[11]和FLAN-T5[13]等工作将任务数量提高到数千个。这些研究一致表明，具有不同NLP任务指令的微调LMs可以提高它们在新任务中的表现。
然而，使用这些封闭形式指令(即指令通常仅用于单个NLP任务，并且输入数据形式简单)训练的llm在实际用户场景中往往会失败。

开放域指令微调
我们的工作就属于这条研究路线。OpenAI聘请了许多注释者，并编写了许多具有相应正确响应的指令。这些人工指令形式多样，任务类型丰富。OpenAI在此数据集的基础上，将GPT-3[1]训练成InstructGPT[2]，可以处理多种真实用户指令，ChatGPT成功。由于OpenAI的这些优秀作品不是开源的，因此Alpaca[31]和Vicuna[22]随后积极探索基于开源LLM LLaMA的开放域指令微调[4]。Alpaca使用了一个由有限的(例如，175个样本)手动编写的指令种子集生成的50k指令数据集。Vicuna使用了从ShareGPT.com收集的7万个用户分享的聊天记录。我们的工作不同于InstructGPT和Vicuna 我们使用人工智能生成的数据进行教学微调。与羊驼的自指令生成方法[32]不同，evolo - directive可以控制生成指令的难度和复杂程度。

• wikiichat:停止对大型语言模型聊天机器人的幻觉
• 本文提出了第一个基于llm的聊天机器人，该机器人几乎不会产生幻觉，具有高会话性和低延迟。WikiChat以英文维基百科为基础，这是最大的自由文本语料库。
Knowledge-Grounded聊天机器人
信息检索通常用于开发基于知识的聊天机器人(Shuster等人，2021)。BlenderBot 2 (Chen et al .， 2021)整合了互联网搜索。SeeKeR (Shuster等人，2022a)优于BlenderBot 2 (Chen等人，2021)，利用单一语言模型完成三个模块化任务:生成搜索查询，从检索文档中生成相关知识，并生成最终响应。BlenderBot 3 (Shuster等人，2022b)对一个175b参数的OPT (Zhang等人，2022)在20个问答和对话数据集的组合上进行微调。Atlas (Izacard等人，2022)是KILT基准(Petroni等人，2021)上的最先进模型，它由11个面向知识的任务组成，包括维基百科向导(Dinan等人，2019)。

评估真实性。
FEVER (Thorne等人，2018年)是一个流行的众包数据集，它将主张与从维基百科检索到的证据进行比较，并由Gupta等人(2022年)扩展到对话。与人类标签相比，该数据集上最先进的系统(Krishna等人，2022)的准确率为81%。
Q2 (Honovich等人，2021)使用问答和自然语言推理模型来评估对话代理的真实性。Dziri等人(2022)将这个和其他几个自动指标与人类评估进行了比较，发现自动指标明显落后于人类的表现，并且依赖于虚假的相关性。同时，与我们的工作类似，Min等人(2023)将长系统输出分解为索赔，并使用检索来评估其事实性。他们最好的模型对个人索赔的错误率高达13%。考虑到这些自动度量的高错误率，我们的评估方法(第5节)包含在需要的时候评估人类的判断。像Qian等人(2023)和TripleScore (Goodrich等人，2019)这样的方法只考虑检索文档和系统输出之间的简单实体关系，而我们将该概念推广到所有形式的事实。

• Webbrain:学习基于大型网络语料库为查询生成事实正确的文章
• 在本文中，我们引入了一种新的NLP任务-通过从Web中挖掘支持证据来生成带有查询参考的事实性短文。在这个名为WEBBRAIN的任务中，最终目标是为维基百科中未见过的事实查询生成一篇流畅、信息丰富且事实正确的短文(例如维基百科文章).

预训练语言模型
预训练语言模型(PLMs)已广泛应用于各种自然语言处理(NLP)任务，并取得了优异的成绩。一般来说，这些模型首先在大规模语料库上进行预训练，然后在下游数据集上进行微调以完成特定任务。通过预训练，模型可以学习有效的语言表示，从而提高其在下游任务上的性能。plm的典型范例包括掩码LM (Devlin et al, 2019;Zhang et al .， 2019;Sun et al .， 2019)，从左到右LM (Radford et al .， 2019;Black等人，2021)，前缀LM (Dong等人，2019;Bao等人，2020)，编码器-解码器LM (Song等人，2019;拉斐尔等人，2020;Lewis et al .， 2020a)。掩码LMs通常最适合于自然语言理解或分析任务，例如文本分类和自然语言推理。其他三种类型的plm可以自然地用于文本生成。

Wikipedia-related任务
维基百科是旨在利用外部知识的NLP任务的流行知识来源。例子包括基于知识的对话(Dinan等人，2019)、事实检查(Thorne等人，2018)、开放域QA Kwiatkowski等人(2019)和槽填充ElSahar等人(2018)等。Petroni等人(2021)为那些知识密集型语言任务(KILT)提出了一个基准，其中所有任务都将维基百科的快照作为知识库。与KILT相比，其他与维基百科相关的任务更多地关注维基百科本身。Liu等人(2018)从维基百科构建了一个数据集WikiSum，以实现多文档摘要(MDS)。然后，Liu和Lapata(2019)用层次模型和PerezBeltrachini等人(2019)用主题导向结构进一步探索了MDS任务。WikiWrite (Banerjee & Mitra, 2016)提出了一个系统的解决方案，通过将检索到的内容分配到不同的主题部分来构建Wiki页面。Fruit (Iv et al, 2022)探索现有Wiki页面上的更新信息。最近，Piktus等人(2021)从CCNet构建了一个数据集Sphere (Wenzek等人，2020)，使用该数据集Sphere，他们探索了改进维基百科页面的引用质量。

检索-增强文本生成 RAG
预训练的语言模型容易产生幻觉(即，事实不正确的陈述)(Vinyals & Le, 2015;Koehn & Knowles出版社，2017;Rohrbach et al, 2018;Raunak et al, 2021)。检索增强文本生成作为一种新的文本生成范式，有望缓解这一问题。与基于生成的范式相比，这种新范式通过提供更多的参考，减少了对参数中存储大量知识的依赖。检索增强文本生成已广泛应用于许多NLP任务，如对话生成(Weston等，2018;Zhu et al .， 2020)，机器翻译(Gu et al .， 2018;Cai et al, 2021)和开放域问答(Lewis et al, 2020b;Guu et al, 2020)。在这项工作中，我们形式化了一个新的检索增强文本生成任务WEBBRAIN，它具有两个新的特征:(1)检索库是一个大规模的开放域web语料库;(2)目标是生成自然的、信息丰富的、真实的文本，而不是短跨度的文本。这两个特点都使这项任务极具挑战性。我们的实验将表明，虽然现有的模型可以应用于这项任务，但仍有很大的研究和探索空间。

• Weakly Supervised Detection of Hallucinationsin LLM Activations
• 我们引入了一种弱监督审计技术，使用子集扫描方法从预训练的模型中检测LLM激活中的异常模式。重要的是，我们的方法不需要先验的模式类型知识。相反，它依赖于在测试过程中没有异常的参考数据集。
Auditing LLM Outputs.
先前在LLM模型中检测异常(如刻板印象、毒性或幻觉)的工作主要集中在分析模型生成的内容，如首选或选择的异常选项的百分比[29,41]。其他研究也探讨了偏见对下游任务的传播，包括共参考解析[58]、情感分析[42]、主题建模[20]和预测模型[18]。然而，这些方法的有效性严重依赖于预训练的下游模型的质量。另一种不同的研究方法是使用主成分分析[4,32,58]、聚类[4]或在潜在空间上训练检测分类器[3,4,8,22]来检查llm激活中的偏差。其他工作研究了词对表示之间的距离度量[4,8]。然而，这种方法在上下文场景中显示了不一致检测结果[22,29,35]。此外，这些方法假设完全标记的训练数据的可用性，并且需要预定义的异常模式。很少有先前的工作涉及llm中未知偏差的识别，特别是在无偏句分类的背景下[52]。在这项工作中，我们的目标是检测LLM是否在其隐藏状态下编码异常(例如，幻觉)。我们假设只有“正常”(例如，真实)数据可用，而异常(例如，虚假)数据的存在仍然未公开。

DeepScan
在使用预训练网络分析数据的背景下，深度子集扫描(DeepScan)[12]已被用于检测各种计算机视觉和音频任务中的异常样本，包括创造力样本表征[13]、自动编码器内层的音频对抗性攻击[2]、流量网络中基于补丁的攻击[27]和皮肤状况分类[26]。
在这项工作中，我们扩展了之前的工作，通过扫描预训练的LLM激活，并引入两种新方法来有效识别偏离预期激活分布的异常句子。

• Unveiling Security, Privacy, and Ethical Concerns of ChatGPT
• 尽管ChatGPT在客户服务、教育、心理健康治疗、个人生产力和内容创作等各个行业都有着巨大的前景，但解决其安全性、隐私性和道德问题至关重要。
• Universal and Transferable Adversarial Attacks on Aligned Language Models对齐语言模型的通用和可转移对抗性攻击
• 在本文中，我们提出了一种简单有效的攻击方法，使对齐的语言模型产生令人反感的行为。具体来说，我们的方法找到了一个后缀，当附加到法学硕士产生令人反感的内容的广泛查询时，旨在最大限度地提高模型产生肯定响应(而不是拒绝回答)的概率。
LLM中的对齐方法Alignment approaches in LLMs
因为大多数法学硕士都是在广泛从网络上收集数据的基础上训练的，所以当在面向用户的应用程序中使用时，他们的行为可能会与普遍持有的规范、道德标准和法规相冲突。越来越多的校准工作旨在理解由此产生的问题，并开发解决这些问题的技术。Hendrycks等人[2021]引入了ETHICS数据集来衡量语言模型预测人类道德判断的能力，他们发现，虽然当前的语言模型在这方面显示出一些希望，但预测基本人类道德判断的能力是不完整的。
调整模型行为的主流方法包括人类反馈，首先根据注释者给出的偏好数据训练奖励模型，然后使用强化学习相应地调整LLM [Christiano等人，2017,Leike等人，2018,Ouyang等人，2022,Bai等人，2022a]。其中一些方法进一步将奖励模型限定在规则(Glaese et al .， 2022)或对有害指令的反对的思维链式解释(Bai et al .， 2022b)上，以提高人类对模型行为的判断一致性。Korbak等人[2023]进一步表明，将人类判断纳入预训练期间使用的目标可以进一步改善下游任务的对齐。虽然这些技术已经显著改善了llm生成令人反感的文本的倾向，但Wolf等人[2023]认为，任何减弱不希望的行为而不完全消除它的对齐过程仍然容易受到对抗性提示攻击。我们对当前对齐llm和之前的结果证明成功越狱的工作[Wei等人，2023]与这一猜想一致，并进一步强调了对更可靠的校准和安全机制的需求。

Adversarial examples & transferability对抗性例子&可转移性
对抗性示例，或设计用于诱导机器学习模型错误或不良行为的输入，已成为广泛研究的主题[Biggio等人，2013,Szegedy等人，2014,Goodfellow等人，2014,Papernot等人，2016b, Carlini和Wagner, 2017b]。除了对抗性攻击的研究之外，还提出了许多方法来保护模型免受此类攻击[Madry等人，2018,Cohen等人，2019,Leino等人，2021]。然而，对这些攻击的防御仍然是一个重大挑战，因为最有效的防御往往会降低模型的准确性[Li等人，2023]。
虽然最初是在图像分类的背景下研究的，但最近已经证明了语言模型的对抗性示例用于几个任务:问答[Jia和Liang, 2017, Wallace等人，2019]，文档分类[Ebrahimi等人，2017]，情感分析[Alzantot等人，2018,Maus等人，2023]和毒性[Jones等人，2023,Wallace等人，2019]。然而，我们研究的这些对对齐模型的攻击的成功被证明是相当有限的[Carlini et al, 2023]。除了对语言模型攻击所需的离散标记进行实际优化的相对困难之外(下文将详细讨论)，更根本的挑战是，与基于图像的攻击不同，在文本域中没有模拟的真正难以察觉的攻击:然而小的p扰动产生的图像对人类来说实际上是无法区分的，替换离散标记实际上总是在严格意义上可察觉的。对于许多分类领域，这需要对攻击威胁模型进行更改，以确保令牌更改不会改变文本的真实类别，例如仅用同义词替换单词[Alzantot等人，2018]。实际上，这是查看针对对齐语言模型的攻击设置的一个显著优势:与文档分类的情况不同，理论上不存在允许生成有害内容的输入文本更改，因此，指定对诱导目标不良行为的提示进行任何调整的威胁模型实质上比其他攻击更清晰。
描述和防御对抗性示例的大部分工作都考虑了针对特定输入的攻击。Moosavi-Dezfooli等人[2017]也可能存在普遍的对抗性扰动(导致许多输入的错误预测)。正如跨架构和领域存在特定于实例的示例一样，已经为图像Moosavi-Dezfooli等人[2017]，音频Neekhara等人[2019]，Lu等人[2021]和语言Wallace等人[2019]展示了通用示例。
对抗性示例最令人惊讶的特性之一是它们是可转移的:给定一个对抗性示例，它欺骗了一个模型，在某些非零概率下，它也欺骗了其他类似模型[Szegedy等人，2014,Papernot等人，2016a]。可转移性已被证明出现在不同类型的数据、架构和预测任务中，尽管它在某些情况下不像图像分类领域那样可靠，但它已被广泛研究，例如，音频模型的可转移性已被证明在许多情况下更为有限[Abdullah等人，2022]。
对于语言模型，Wallace等人[2019]展示了为117m参数GPT2生成的示例，这些示例转移到更大的375M变体，最近Jones等人[2023]表明，在GPT2上优化的一组三标记有毒生成提示中，大约有一半转移到davincii -002。
可转移性发生的原因有几种理论。Tram 'er等人[2017]推导了数据分布的条件，足以实现跨线性模型的模型不可知可转移性，并给出了经验证据，支持这些条件在更普遍的情况下仍然是充分的。Ilyas等人[2019]认为，对抗性示例的一个原因在于非鲁棒特征的存在，尽管这些特征容易受到小范数扰动的影响，但它们可以预测类标签。
这个理论也可以解释对抗性转移，也许在某些情况下也可以解释通用性，因为训练有素但非健壮的模型可能会学习这些特征，尽管架构和许多与优化和数据相关的其他因素存在差异。

Discrete optimization and automatic prompt tuning离散优化和自动提示调谐
NLP模型设置中对抗性攻击的主要挑战是，与图像输入不同，文本本质上是离散的，这使得利用基于梯度的优化来构建对抗性攻击变得更加困难。然而，对于这种自动提示调优方法的离散优化已经进行了一些工作，通常试图利用这样一个事实，即除了令牌输入的离散性质之外，基于深度网络的LLM的整个剩余部分都是一个可微函数。
一般来说，有两种主要的快速优化方法。其中第一种是基于嵌入的优化，它利用了这样一个事实:LLM中的第一层通常在某些连续嵌入空间中投射离散令牌，并且下一个令牌的预测概率是该嵌入空间上的可微函数。这立即激发了对标记嵌入的持续优化的使用，这种技术通常被称为软提示[Lester等人，2021];事实上，我们发现构建针对软提示的对抗性攻击是一个相对琐碎的过程。不幸的是，挑战在于这个过程是不可逆转的:优化的软提示通常没有相应的离散标记化，面向公众的LLM接口通常不允许用户提供连续的嵌入。然而，有一些方法可以通过持续地投射到硬令牌分配上来利用这些连续嵌入。例如，prompt Made Easy (PEZ)算法[Wen et al .， 2023]使用一种量化优化方法，通过在投影点处取梯度来调整连续嵌入，然后再将最终解投影回硬提示空间。或者，最近的工作还利用朗格万动态采样，在利用连续嵌入的同时从离散提示中采样[Qin等，2022]。
另一组方法在很大程度上直接优化了离散令牌。这包括对令牌进行贪婪穷举搜索的工作，我们发现这种搜索通常可以执行得很好，但在大多数情况下计算上也是不切实际的。
或者，许多方法计算相对于当前令牌赋值的单热编码的梯度:这本质上是将单热向量视为连续量，以导出该项的相关重要性。这种方法首先用于HotFlip [Ebrahimi等人，2017]方法，该方法总是贪婪地将单个令牌替换为具有最高(负)梯度的替代方案。然而，由于one-hot级别的梯度可能无法准确反映切换整个令牌后的功能，因此AutoPrompt [Shin等人，2020]方法在此基础上进行了改进，通过根据k最大的负梯度来评估正向传递中的几种可能的令牌替换。最后，ARCA方法[Jones等人，2023]在此基础上进一步改进，还评估了几个潜在令牌交换的近似单热梯度，而不仅仅是当前令牌的原始单热编码。实际上，我们自己的优化方法遵循这个令牌级梯度方法，对AutoPrompt方法进行了微小的调整。
• Truth Forest: Toward Multi-Scale Truthfulness in Large Language Models through Intervention without Tuning真理森林:通过无调校干预实现大型语言模型的多尺度真实性
• 我们引入了Truth Forest，这是一种通过使用多维正交探针发现隐藏的Truth表示来增强llm真实性的方法
法学硕士的高度参数化特性常常导致难以理解的黑箱操作(Hu et al . 2021;houholsby et al . 2019)，导致干预效果有限。虽然对比一致搜索(CCS) (Burns et al 2022)在法学硕士的真值建模方面取得了进展，但由于它依赖于无监督真实方向的二元逻辑约束，因此面临挑战。同样，推理时间干预(ITI) (Li et al . 2023b)使用监督样本揭示了llm内的多维真实性，但它存在高方差。这些工作使用QA序列的最后一个令牌来提取特征以寻找方向，这可能导致生成和识别真理之间的不一致，原因有两个:(1)在没有特殊训练的情况下使用固定位置进行特征提取可能导致性能次优(Liu et al . 2019)。(2)既然答案已经给出，焦点就从问题转移到辨别具体的反应，这可能会限制处理幻觉的范围。
Probe-based干预。
最近在llm中建模真理的工作可以追溯到即插即用语言模型(PPLM)系列，该系列引入了一个分类器P(a|x)，并使用马尔可夫链蒙特卡罗(MCMC)采样来获得后验分布P(x|a)∝P(a|x)P(x)。通常，干预需要多次向前和向后传递。这些被认为是激活编辑的方法已广泛应用于风格迁移领域(Liu et al . 2022;Dhariwal和Nichol 2021)。受(Li et al . 2023b)的启发，TrFr简化了多步干预过程，并与PPLM建立了连接，作为PPLM的低阶逼近。
我们跟随ITI，进一步探索多维真性。我们将在以下部分中描述TrFr。
• Towards Mitigating Hallucination in Large Language Models via Self-Reflection通过自我反思来减轻大型语言模型中的幻觉
• 我们提出了一种结合知识获取和答案生成的交互式自我反思方法。通过这种反馈过程，我们的方法稳步提高了生成答案的真实性、一致性和蕴涵性
Hallucination in Generative Question Answering
忠实的GQA旨在生成严格基于源文本或有效外部知识的答案，已经获得了重要的研究关注(Nakano等人，2021;Su et al .， 2022, 2023)。答案越忠实，它包含的幻觉内容就越少。语义漂移、事实正确性等其他术语也可以反映幻觉水平(Li et al .， 2021a;Su et al, 2022)。
理据丰富答案生成器(REAG) (Li et al .， 2021a)增加了一个提取任务来获取答案的理据，并生成高置信度的答案。Read-before-Generate (Su et al, 2022)将答案生成与机器阅读相结合，以整合细粒度的、与答案相关的突出信息。一个基准(Lin et al .， 2021)衡量由不同领域的语言模型生成的答案的真实性。这些研究强调了减少幻觉的重要性，这是我们工作的重点。
Large Language Models
llm的出现，包括GPT-3 (Brown等人，2020)、ChatGPT (OpenAI, 2023a)、LLaMA (Touvron等人，2023)和GPT-4 (OpenAI, 2023b)，彻底改变了自然语言处理任务，展示了它们在生成流畅的、上下文相关的响应方面令人印象深刻的语言能力(Brown等人，2020;OpenAI, 2023;Touvron等，2023;OpenAI, 2023 b)。此外，这些模型还揭示了突发能力，如情境学习(Min et al .， 2022)、零射击指令(Ouyang et al .， 2022;Wei et al .， 2021)和思维链推理(Wei et al .)。然而，它们在实际应用中的部署也暴露出与控制、偏差和可靠性相关的挑战(Tamkin等人，2021)，其中幻觉最近已成为一个日益明显的问题(OpenAI, 2023a;Bang et al, 2023)。
在本节中，我们直接向法学硕士询问来自五个数据集的医学问题，利用他们的零射击能力。然后，我们综合评估和分析生成的答案，重点是检查幻觉的发生。

• THE UNLOCKING SPELL ON BASE LLMS:RETHINKING ALIGNMENT VIA IN-CONTEXT LEARNING基础llms的解锁咒语:通过情境学习重新思考对齐
• 对齐调优已经成为使基础大型语言模型(llm)成为开放领域人工智能助手的事实上的标准实践。校准调整过程通常包括通过监督微调(SFT)进行的指令学习和通过人类反馈强化学习(RLHF)进行的偏好调整。我们引入了一种简单的、无需调优的对齐方法，URIAL (Untuned llm with Restyled In-context alignment)。URIAL完全通过与基本llm的上下文学习(ICL)来实现有效的对齐，只需要三个固定的风格示例和一个系统提示。我们对一组不同的示例进行细粒度和可解释的评估，称为just-eval- directive。结果表明，带有URIAL的碱基llm可以匹配甚至超过与SFT (mistral -7b- directive)或SFT+RLHF (Llama-2-70b-chat)对齐的llm的性能。
Limitation of Tuning-based Alignment. 通过SFT和RLHF进行对齐调优通常需要大量资源，例如GPU节点、大量指令数据和人工注释，这使得该过程既昂贵又耗时。这限制了普通实验室对超过30B的极端尺度llm进行校准，更不用说最近的Falcon-180B了(Almazrouei et al, 2023)。此外，在预训练和持续训练阶段，如果总是需要校准调整来评估其指令遵循能力，则有效地估计基本模型检查点的下游性能将变得具有挑战性。除了上述限制之外，基于调优的对齐还可能导致llm中的遗忘问题。
Wang等人(2023)证明，一些SFTed法学硕士在事实和推理基准上的表现明显不如基础法学硕士。例如，将SFT应用于Llama-13b与自我指导(Wang等人，2022a)会导致其MMLU性能(从42.5到30.3)和Codex-Eval性能(从26.6到13.4)的显著下降。更引人注目的是，使用SuperNI的SFT (Wang et al, 2022b)导致Llama-13B几乎失去了所有的BBH推理能力(从36.9下降到2.8)。此外，Shen等人(2023)表明，RLHF中的奖励模型可以表现得非常不一致，当向它们显示对比指令时，会产生几乎随机的表现。这些发现表明，对齐调整可能导致基础llm中先前获得的知识的遗忘，这在我们的实验中也得到了证明。
Superficial alignment hypothesis.表面一致性假说。
LIMA (Zhou et al.， 2023)只使用了1k个例子来微调一个65B LLM，并发现这样一个稍微调整的LLM出人意料地获得了比ChatGPT更高的胜率，这意味着校准调整是肤浅的。最近的其他研究也报告了类似的观察结果(Chen et al .， 2023a;Lee et al, 2023)。此外，Gudibande等人(2023)证明，通过模仿专有法学硕士(例如，ChatGPT)来调整开源法学硕士可能并不总是产生理想的结果，强调了强大的预训练基础法学硕士对于生成事实内容的重要性。基于调优的方法(如LIMA)仍然需要调优llm的权重，因此当模型大小太大或我们需要频繁地对齐基本llm以进行评估时，会面临上述限制。一项并行研究(Duan et al .， 2023)也通过分析llm的隐藏状态，探讨了ICL和指令调优对下游任务的影响之间的相似性。至于对齐理论，这些研究只是间接地提出了表面对齐假设的希望，而没有直接表明对齐调整在何时何地显著改变模型行为。在本文中，我们研究表面对齐假说更直接地通过符号分布移位的镜头，直接展示了对齐效应，并产生了更详细的非琐碎的发现。

• Survey of Hallucination in Natural Language Generation
• 近年来，由于基于transformer的语言模型等序列到序列深度学习技术的发展，自然语言生成(NLG)得到了指数级的改进。这一进步导致了更流畅和连贯的NLG，从而改善了下游任务的开发，例如抽象摘要、对话生成和数据到文本生成。然而，同样明显的是，基于深度学习的生成容易产生意想不到的文本，这降低了系统的性能，并且在许多现实场景中无法满足用户的期望。为了解决这个问题，已经提出了许多关于测量和减轻幻觉文本的研究，但这些研究从未以全面的方式进行过审查。在这项调查中，我们因此提供了一个广泛的概述，在幻觉问题的NLG的研究进展和挑战。该调查分为两部分:(1)对度量、缓解方法和未来方向的总体概述;(2)对以下下游任务中特定任务的幻觉研究进展的概述，即抽象总结、对话生成、生成式问答、数据到文本生成和机器翻译。这项调查有助于促进研究者之间的合作努力，以解决NLG中幻觉文本的挑战。

• Siren’s Song in the AI Ocean:A Survey on Hallucination in Large Language Models大型语言模型中的幻觉研究

• SELFCHECKGPT生成式大型语言模型的零资源黑盒幻觉检测
• 们提出了“SelfCheckGPT”，这是一种简单的基于抽样的方法，可用于以零资源方式(即无需外部数据库)对黑箱模型的响应进行事实检查。SelfCheckGPT利用了一个简单的想法，即如果法学硕士了解给定的概念，那么采样的响应可能是相似的，并且包含一致的事实。然而，对于幻觉的事实，随机抽样的反应可能会彼此偏离和矛盾。我们通过使用GPT-3从WikiBio数据集中生成关于个人的文章来研究这种方法，并手动注释生成的文章的真实性。我们证明了SelfCheckGPT可以:i)检测非事实句和事实句;ii)根据事实对文章进行排序
Hallucination of Large Language Models 幻觉已经在文本生成任务中进行了研究，包括摘要(Huang et al .， 2021)和对话生成(Shuster et al .， 2021)，以及各种其他自然语言生成任务(Ji et al .， 2023)。自一致性解码已被证明可以改善复杂推理任务中的思维链提示性能(Wang et al .， 2023)。此外，Liu等人(2022)引入了一个幻觉检测数据集，然而，文本是通过干扰事实文本获得的，因此可能无法反映真实的LLM幻觉。
最近，Azaria和Mitchell(2023)训练了一个多层感知分类器，其中使用LLM的隐藏表示作为输入来预测句子的真实性。然而，这种方法是一种使用LLM内部状态的白盒方法，可能无法通过API调用获得，并且需要标记数据进行监督训练。另一种最近的方法是自我评估(Kadavath等人，2022)，其中法学硕士被提示评估其先前的预测，例如，预测其生成的响应/答案为真的概率。
序列级不确定性
令牌概率已被用作模型确定性的指示。例如，OpenAI的GPT-3 web界面允许用户显示令牌概率(如图2所示)，并且已经研究了基于任意不确定性和认知不确定性的自回归生成的进一步不确定性估计方法(Xiao and Wang, 2021;Malinin and Gales, 2021)。此外，条件语言模型得分也被用于评估文本的属性(Yuan et al .， 2021;Fu et al, 2023)。最近，语义不确定性被提出用于解决自由形式生成任务中的不确定性，其中概率附加到概念而不是标记(Kuhn et al, 2023)。
Fact Verification事实验证
现有的事实验证方法遵循索赔检测、证据检索和判决预测的多阶段流程(Guo et al .， 2022;钟等人，2020)。然而，这些方法需要访问外部数据库，并且可能有相当大的推理成本。

• Self-Alignment with Instruction Backtranslation自对齐与指令反翻译
• 我们提出了一种可扩展的方法，通过自动标记相应的指令来构建高质量的指令跟随语言模型。我们的方法，称为指令反翻译，
Instruction tuning for LLMs llm的指令调优。
我们的工作与在调整大型语言模型以遵循指令方面的广泛努力具有相同的目标。指令调优的早期工作主要集中在NLP任务上，研究发现，使用格式为指令输出对的NLP数据集进行调优可以提高跨任务的概括性，Wei等人[2021]，Mishra等人[2021]，Sanh等人[2021]， Wang等[2022b]。最近的工作欧阳等人[2022]将指令调整扩展到更广泛的一般任务，特别是结合语言模型用户的指令。
指令生成和管理。
使llm能够执行一般指令的一个关键挑战是收集用于调优的演示示例。现有的高质量指令遵循llm在各个步骤中依赖于人工注释，包括编写指令、编写模型响应、提供偏好以指示期望的响应等。这些指令集通常是专有的，一个例外是最近的OpenAssistant数据集Köpf等[2023]。总的来说，人工注释方法很难扩展，因为在广泛的任务上收集注释既昂贵又耗时，而且需要不同领域的专业知识。
一些作品探索了使用llm来生成指令。非自然指令提示GPT-3在给定一些上下文种子指令的情况下生成更多指令Honovich等[2022]。
self - instruction Wang等人[2022a]使用相同的方法来生成指令，以及这些指令的输出。它们进一步执行人工设计的过滤规则，以删除低质量的指令输出对。Xu等[2023]通过创建发送到ChatGPT的用户指令的变体来生成更复杂的指令。
所有这些方法都使用模型生成的响应来训练数据。与我们的方法更相似的是Köksal等人[2023]的并行工作，他们将人类编写的文本作为自然响应，并使用LLM在响应上生成相应的指令条件。我们工作中的一个关键区别是，我们表明自我管理步骤对于改进这种程序至关重要。
进一步的区别是，它们通过指令调优的LLM (InstructGPT)使用蒸馏来生成指令，而我们的方法不依赖于循环中更强大的模型的蒸馏，而是一个自校准的实例。

Self-alignment.
我们的工作是不断增长的自我调整工作的一个实例。
利用模型来改进自身，并将其响应与期望的行为(如模型、书面反馈、批评、解释等)结合起来。与我们的工作不同的是，这些工作中的许多要么以无监督的方式构建训练数据[Sun等人，2023,Bai等人，2022b]，而我们增强了人工编写的网页，要么他们使用模型来生成额外的上下文，以便在推理时条件提高输出[Saunders等人，2022,Zhang和Yang, 2023, Madaan等人，2023]。
数据质量。
有几种方法表明，管理高质量的人类书面数据可以产生强大的性能，例如PALMS Solaiman和Dennison[2021]以及LIMA Zhou等人
[2023]。Chen等人[2023]的工作提供了一种过滤此类数据的算法方法。相比之下，我们的工作重点是选择自对准数据。
蒸馏。
大多数调优的LLaMA模型都是基于ChatGPT或GPT-4的知识蒸馏，如Alpaca Taori等[2023]，Alpaca gpt 4Peng等[2023]，Vicuna Chiang等
[2023]， falcondirective Almazrouei等[2023]，OpenChat Wang等[2023]，UltraChat Ding等[2023]。因此，这些方法要求您已经拥有一个强大的模型，但不提供从头开始构建强大模型的方法。[Gudibande et al .， 2023]也讨论了这些方法的缺点。
• RETRIEVAL IS ACCURATE GENERATION检索准确生成
• 我们介绍了一种从支持文档集合中选择上下文短语的新方法。这种范式转变最重要的挑战之一是确定训练预言机，因为一串文本可以以各种方式分割，每个片段可以从许多可能的文档中检索。为了解决这个问题，我们建议使用语言启发式来初始化训练预言机，更重要的是，通过迭代自我强化来引导预言机
标准语言模型(LMs) (Radford等人，2019;Brown等人，2020)被训练来预测给定文本前缀的下一个标记。这些模型具有大量的训练语料库和模型参数，在各种下游任务上表现出很强的零射击性能，可以作为自然语言处理的统一解决方案。然而，扩大模型参数和训练语料库可能非常昂贵，并且不能及时完成。为了解决上述问题，越来越多的工作使用非参数组件来增强参数LM (Li et al .， 2022)。Guu et al . (2020);Lewis et al (2020);Borgeaud et al (2022);Izacard等人(2022)将下一个令牌预测建立在使用检索技术获得的一组相关文档上(Robertson & Zaragoza, 2009;Karpukhin et al, 2020)。Khandelwal等(2020);Yogatama等人(2021);Zhong等人(2022)利用非参数最近邻估计增强了输出概率分布。此外，检索-生成范式已在特定的下游任务中得到广泛研究，例如代码生成(Hashimoto等人，2018)，问答(Karpukhin等人，2020;Lee等人，2021a)，开放域对话系统(Weston等人，2018;Wu et al .， 2019;Cai et al .， 2019a;b)和机器翻译(Khandelwal et al .， 2021;Cai et al, 2021)。与我们的研究最密切相关的是Min等人(2022)和Lan等人(2023)的研究。前者在蒙面语言模型领域探索了类似的想法，以增强自然语言理解。另一方面，Lan等人(2023)允许从基础文档中复制短语。然而，他们的方法仍然依赖于一个两阶段的管道，仅将生成建立在一小部分检索文档的基础上。Lan等人(2023)简单地使用最长公共子序列算法来查找可以从检索到的文档中复制的短语，而我们提出了基于启发式和自我强化的机制来构建可靠的训练预言机。此外，Lan等人(2023)仅评估开放式文本生成任务的性能。
• REASONS TO REJECT? ALIGNING LANGUAGE MODELS WITH JUDGMENTS 拒绝的理由?将语言模型与判断结合起来
• 我们提出了一个新的框架，对比不可能训练(CUT)，它允许基于判断进行细粒度的不适当内容检测和纠正。
COLLECTING FEEDBACK
价值反馈(奖励)。自然语言处理(NLP)的传统RL研究使用算法定义的指标作为奖励函数，例如用于翻译的BLEU (Wu等人，2016)和用于总结的ROUGE (Ranzato等人，2016)。对于LLM对齐，现有工作主要利用人类偏好数据来拟合奖励模型，该模型随后产生标量奖励(Ouyang等人，2022)。为了增加价值反馈的信息量，最近的研究引入了多维奖励(Bai et al .， 2022a;Touvron等，2023;Wu et al .， 2023)，并为每个子步骤提供奖励(Lightman et al .， 2023)。
语言反馈(判断)。判断通常需要对模型生成的响应进行人工注释。有几部作品收集了针对特定任务的判断，例如对话(Xu等人，2023b)，总结(Saunders等人，2022;Scheurer et al, 2022;2023;Liu et al .， 2023c)，问答(Li et al .， 2022;Xu et al .， 2023a)，脚本生成(Tandon et al .， 2022)，以及一般指令遵循任务(Wang et al .， 2023a)。另一个方向是训练AI裁判员自动为模型的响应提供精确的判断(Bai et al .， 2022b;Akyurek等，2023;Li et al .， 2023)。
从反馈中学习
现有的从反馈中学习的方法可以分为两类:提示和微调，根据llm参数的更新是否缺失或存在来区分。
出现提示。提示不会改变llm的参数。相反，它利用先前响应的语言反馈来促进生成改进的响应(Welleck等人，2022;Akyurek et al, 2023)。语言反馈可以来自不同的方面(Nathani等)(2023);Yu et al .(2023)，细化过程可多次迭代Yang et al . (2022);Peng等(2023a);Madaan et al .(2023)。然而，这些方法比单次生成消耗更多的计算，并且通常依赖于法学硕士的上下文学习能力(Brown等人，2020;Liu et al .， 2023b)。
微调。微调的目的是直接培养一个更好的法学硕士。在这种情况下，价值反馈已通过强化学习，特别是PPO被广泛使用(Schulman et al, 2017;Ziegler et al, 2019;Stiennon et al, 2020;欧阳等，2022;白等人，2022a;Yang et al, 2023)。然而，这些强化学习方法是出了名的不稳定和复杂(Zheng et al .， 2023)。为了稳定RL, Ramamurthy等人(2023)提出通过截断来减小动作空间，Peng等人(2023b)采用优势模型和选择性排练。此外，许多努力已经投入到设计更简单的替代RL。Dong et al . (2023);Touvron等人(2023)将价值反馈作为排序标准，并简单地使用最佳模型生成的响应来训练模型。也有人试图利用提示的结果来训练一个更好的模型。即将语言反馈得到的改进后的响应作为新的训练数据(Bai et al .， 2022b;Scheurer et al, 20222023）. 然而，这些方法仍然无法从错误中吸取教训。Rafailov et al (2023);Yuan等(2023);Song等人(2023)证明，llm本身可以用作奖励函数，并派生出不同的训练目标，以消除对强化学习的需求。Zhang等
(2023);Liu等人(2023a)使用响应接收到的反馈值重新标记输入，称为后见之明。这种后见之明的方法允许法学硕士学习产生不同质量的反应。在这项工作中，我们的CUT是一种新颖的微调方法，允许llm从语言反馈的积极和消极方面全面学习。

• REASONING ON GRAPHS: FAITHFUL AND INTERPRETABLE LARGE LANGUAGE MODEL REASONING图上推理:忠实的和可解释的大语言模型推理
• 他们在推理过程中缺乏最新的知识和经验幻觉，这可能导致不正确的推理过程，降低他们的表现和可信度。知识图谱(Knowledge graphs, KGs)以结构化的形式捕获了大量的事实，为推理提供了可靠的知识来源。然而，现有的基于kg的LLM推理方法只将kg作为事实知识库，忽略了其结构信息对推理的重要性。在本文中，我们提出了一种称为图上推理(RoG)的新方法，该方法将llm与KGs协同使用，以实现忠实和可解释的推理

LLM推理提示。
许多研究提出利用法学硕士的推理能力，通过提示来处理复杂任务(Wei et al .， 2022;Wang et al .， 2022;Yao等，2023;Besta et al, 2023)。plan -and-solve (Wang et al .， 2023c)促使法学硕士生成一个计划，并在此基础上进行推理。DecomP (He et al, 2021)提示法学硕士将推理任务分解为一系列子任务，并逐步求解。然而，幻觉和缺乏知识的问题影响了法学硕士推理的准确性。ReACT (Yao et al .， 2022)将llm视为agent，与环境交互以获取最新的知识进行推理。为了探索忠实推理，FAME (Hong et al .， 2023)引入了蒙特卡洛规划生成忠实的推理步骤。RR (He et al .， 2022)和KD-CoT Wang et al . (2023b)进一步从KGs中检索相关知识，为llm生成忠实的推理计划
知识图谱问答(KGQA)。
传统的基于嵌入的方法表示嵌入空间中的实体和关系，并设计特殊的模型架构(例如键值记忆网络、顺序模型和图神经网络)来推理答案(Miller等人，2016;他等人，2021;Yasunaga et al .， 2021)。为了将llm集成到KGQA中，检索增强方法旨在从KGs中检索相对事实以提高推理性能(Li et al .， 2023;Karpukhin et al, 2020)。最近，UniKGQA (Jiang et al .， 2022)将图检索和推理过程统一为具有llm的单个模型，实现了STOA性能。语义解析方法通过llm将问题转换为结构化查询(例如SPARQL)，查询引擎可以执行该查询以在KGs上推理答案(Sun et al .， 2020;兰江，2020)。然而，这些方法严重依赖于生成查询的质量。如果查询不可执行，则不会生成任何答案。DECAF (Yu et al .， 2022a)结合语义解析和llm推理共同生成答案，在KGQA任务上也达到了显著的性能。

• REAC T: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS 目标1:在语言模型中协同推理和行动
• 在本文中，我们探索了llm的使用，以交错的方式生成推理跟踪和任务特定的操作，允许两者之间更大的协同作用:推理跟踪帮助模型诱导、跟踪和更新操作计划以及处理异常，而操作允许它与外部来源(如知识库或环境)交互并收集额外的信息。
Language model for reasoning
也许使用法学硕士进行推理的最著名的工作是思维链(CoT) (Wei et al .， 2022)，它揭示了法学硕士为解决问题制定自己的“思维程序”的能力。此后进行了几项后续工作，包括解决复杂任务的最小到最大提示(Zhou et al .， 2022)，零射击(Kojima et al .， 2022)和自一致性推理(Wang et al .， 2022a)。最近，(Madaan & Yazdanbakhsh, 2022)系统地研究了翻译的形式和结构，并观察到符号、模式和文本的存在对翻译的有效性至关重要。其他工作也被扩展到更复杂的推理架构，而不是简单的提示。
例如，选择-推理(Creswell et al, 2022)将推理过程分为“选择”和“推理”两个步骤。STaR (Zelikman等人，2022)通过根据模型本身生成的正确基本原理对模型进行微调，从而引导推理过程。忠实推理(Creswell & Shanahan, 2022)将多步推理分解为三个步骤，每个步骤分别由一个专门的LM执行。类似的方法，如Scratchpad (Nye et al, 2021)，在中间计算步骤上对LM进行微调，也证明了对多步骤计算问题的改进。
与这些方法相比，ReAct执行的不仅仅是孤立的、固定的推理，还将模型操作及其相应的观察集成到一个连贯的输入流中，以便模型更准确地推理并处理推理之外的任务(例如交互式决策)。

决策的语言模型
llm的强大能力使其能够执行语言生成之外的任务，并且利用llm作为决策的策略模型越来越受欢迎，特别是在交互式环境中。WebGPT (Nakano et al .， 2021)使用LM与web浏览器交互，浏览网页，并从ELI5中推断复杂问题的答案(Fan et al .， 2019)。与ReAct相比，WebGPT没有明确地对思维和推理过程进行建模，而是依赖于昂贵的人工反馈来进行强化学习。在对话建模中，像blendbot (Shuster等人，2022b)和Sparrow (Glaese等人，2022)这样的聊天机器人和像SimpleTOD (Hosseini-Asl等人，2020)这样的面向任务的对话系统也训练lm对API调用做出决策。与ReAct不同的是，它们也没有明确地考虑推理过程，并且还依赖于昂贵的数据集和人工反馈集合来进行策略学习。相比之下，ReAct以更便宜的方式学习策略，因为决策过程只需要对推理过程的语言描述法学硕士也越来越多地用于规划和决策的交互式和具体化环境。也许在这方面与ReAct最相关的是SayCan (Ahn等人，2022)和Inner Monologue (Huang等人，2022b)，它们使用llm进行机器人行动计划和决策。在SayCan中，llm被提示直接预测机器人可能采取的行动，然后由基于视觉环境的功能模型重新排序，以进行最终预测。
《内心独白》通过添加同名的“内心独白”进行了进一步的改进，这是作为来自环境的注入反馈来实现的。据我们所知，《内心独白》是第一个展示ReAct所基于的闭环系统的作品。然而，我们认为内心独白并不真正包括内心的想法——这在第4节中详细阐述。我们还注意到，在交互式决策过程中，利用语言作为语义丰富的输入已被证明在其他环境下是成功的(Abramson等人，2020;Karamcheti et al, 2021;黄等，2022a;Li et al .， 2022)。越来越明显的是，在法学硕士的帮助下，语言作为一种基本的认知机制将在互动和决策中发挥关键作用。更重要的是，法学硕士的进步也激发了Reed等人(2022)等多面手的发展。

• Aligning Large Language Models with Human Preferences through Representation Engineering通过表示工程将大型语言模型与人类偏好对齐
• 将大型语言模型(llm)与人类偏好保持一致对于增强它们在有用性、真实性、安全性、无害性和趣味性方面的效用至关重要。实现这种对齐的现有方法通常涉及使用来自人类反馈的强化学习(RLHF)来微调基于人类标签的llm，评估模型响应的相对质量。然而，RLHF在微调过程中容易出现不稳定，并在执行中提出挑战。从新兴的表示工程(RepE)领域汲取灵感，本研究旨在识别嵌入在LLM活动模式中的高级人类偏好的相关表示，并通过转换其表示来实现对模型行为的精确控制。这种新方法被称为来自人类反馈的表示对齐(RAHF)，被证明是有效的，计算效率高，易于实现。大量的实验表明，RAHF不仅能捕获表征，还能操纵表征，使其与广泛的人类偏好或价值观保持一致，而不是局限于单一的概念或功能(如诚实或偏见)。RAHF在适应不同人类偏好方面的多功能性显示了其推进LLM性能的潜力。
在聊天代理的开发中，调整大型语言模型以从其广泛的知识和能力中引出所需的响应和行为是必不可少的，例如ChatGPT (Brown等人，2020)、LLaMA (Touvron等人，2023)和GPT-4 (Bubeck等人，2023)，其特点是安全、性能和可控制性。语言模型规模的扩大本身并不会增强它们遵循用户意图的能力。例如，llm仍然可能生成不真实的、有害的或对用户没有帮助的输出。现有的人类偏好对齐方法大致可以分为三大类:强化学习(Ouyang et al .， 2022;Ramamurthy等人，2023)，对比学习(Rafailov等人，2023;赵等，2023;Yuan et al .， 2023)和后见之明指令重标注(Zhang et al .， 2023;Liu et al, 2023)。
广泛的研究致力于通过评分或排名从人类反馈中探索强化学习，涵盖从nl到sql转换(Zhong等人，2017)，机器翻译(Kreutzer等人，2018)，面向任务的对话系统(Su等人，2019;Zhang et al .， 2019;Takanobu等人，2019)，总结(Stiennon等人，2020)，讲故事(Ziegler等人，2019)到指令遵循(Ouyang等人，2022;Ramamurthy et al, 2023)。通常，这些方法包括将奖励模型拟合到人类偏好数据集，然后对LLM pol进行优化使用强化(Williams, 1992)或近端策略优化(Schulman et al, 2017)等强化学习算法来生成高回报的响应。尽管利用比专家演示更容易收集的人类偏好具有吸引力，但用RL训练法学硕士面临着重大的实际挑战，这归因于RL对超参数的敏感性以及训练过程中固有的不稳定性。
基于后见之明指令重标注的解决方案(Zhang et al .， 2023;Liu et al .， 2023)和对比学习(Rafailov et al .， 2023;赵等，2023;Yuan等人，2023)已经成为基于强化学习的方法的计算效率替代方案，没有明确的奖励建模。然而，这些无奖励的微调解决方案容易受到噪声数据或训练集中不正确标签的影响。与使用RL调整的模型相比，它们表现出性能滞后(见第4节)。此外，与包含显式奖励模型的模型相比，使用这种微调方法训练的llm是否可以很好地推广到分布外查询的问题仍然没有解决。RLHF方法(Ouyang等人，2022)提供了一种潜在的改进途径，通过使用学习奖励模型标记LLM代来利用额外的未标记示例。
为了提高神经网络的透明度和可控性，邹等人(2023)引入了表征工程(RepE)作为一种方法，将通过表征断层扫描理解深度神经网络与通过神经成像技术研究大脑进行了类比。他们的工作证明了RepE在解决各种与安全相关的挑战(如真实性、诚实性和幻觉)方面的有效性。这项研究与最近的研究结果一致，并将其应用扩展到将法学硕士与广泛的人类偏好相结合。
我们的研究首先引入了两种新方法来指导法学硕士学习人类偏好，然后提取偏好和不偏好刺激之间模型活动的差异。这些活动模式的差异是操纵模型行为的基础，从而产生更符合人类偏好的响应。
由于参数高效微调技术的轻量级计算优势(Houlsby等人，2019;Lester等人，2021;Hu et al .， 2021;Wu等人，2023)，这些技术被用来拟合活动模式的差异。邹等人(2023)采用的方法依赖于未标记或自我生成的刺激，这些刺激仅限于模型已经“知道”的单一概念或功能的含义，与此相反，我们的方法提供了更全面的与不同人类偏好的对齐
• Proactive Conversational Agents in the Post-ChatGPT World 后聊天时代的主动会话代理

• 盘古Agent:一个具有结构化推理的可微调通才Agent

• Multi-Agent Consensus Seeking via Large Language Models
最近对基于法学硕士的多智能体系统的研究探讨了多个智能体如何通过辩论和协商共同完成复杂的推理任务。与依赖单个代理的系统相比，这种协作方法在处理具有挑战性的任务方面显示出其独特的优势。例如，Camel[5]、ChatDev[6]、RoCo[19]和MetaGPT[4]等研究[20-22]探索了与任务划分和协作相关的策略:将复杂的任务分解为几个精细的子任务，然后由代理根据其专业知识对其进行处理。通过采用这种方法，有效降低了系统产生幻觉的风险，确保了更可靠的输出。另一方面，FactReason-MAD[1]、DivThink-MAD[2]、ChatEval[3]和reconciliation[23]等研究工作侧重于多个智能体之间的持续辩论。在这个过程中，每个智能体从其他智能体那里获得见解，并纠正自己的错误观念，直到达成共识。这样的策略使智能体能够从不同的角度分析问题，避免单一的思考，产生更高质量的结果。此外，一系列研究探索了如何利用法学硕士来模拟人类行为。这包括人类讨价还价行为[24]、战略游戏如《狼人》[25]、沙盒游戏如《我的世界》[26,27]、人类社会互动[28]、类人代理[29]以及经典博弈论游戏如《囚徒困境》[30]。然而，到目前为止，寻求协商一致的问题还没有得到具体解决。
此外，一些研究工作[31-34]指出了个别llm中潜在的不自洽问题。本质上，对于给定的输入，LLM中存在多个推理路径，可能导致不同的答案，突出了单个模型的不一致性问题。作为比较，我们的研究考察了多个法学硕士之间的一致性。同时，文献[35]与我们的工作相似，但他们探讨了不同类型法学硕士之间的共识，并没有深入研究影响共识的因素。
• KCTS: Knowledge-Constrained Tree Search Decoding with Token-Level Hallucination Detection知识约束树搜索译码与标记级幻觉检测
语言模型的幻觉或非事实或无证据支持的内容的生成已经在各个领域进行了研究和报道(Ji et al .， 2023b;Bang等人，2023)，如机器翻译(Raunak等人，2021)、抽象摘要(Maynez等人，2020;Lee et al, 2022)，开放域对话(Ji et al, 2023c;Xu et al .， 2023)、Question answer (Lin et al .， 2022)或image caption (Rohrbach et al .， 2018)。最近开发的法学硕士，如必应聊天，或困惑。ai甚至可以作为生成式搜索引擎，尽管它们看似流畅且信息丰富的响应并不总是可验证的(Liu et al .， 2023b)。
为了自动检测和量化模型生成文本中的幻觉，已经设计了几种检测方法和基准(Thorne等人，2018;Pagnoni et al .， 2021;Wang et al .， 2020;Min等，2023;Manakul et al, 2023;Chen et al .， 2023)。在这项工作中，我们的目标不是直接测量幻觉，而是减轻基于知识的系统中的幻觉，这自然要求响应忠实于知识
知识接地生成主要由检索相关知识驱动(Karpukhin et al .， 2020;Su等人，2022)，并训练生成器在检索知识的基础上产生增强的响应(Lewis等人，2020;伊扎卡德和格雷夫，2021;Rashkin等，2021;Mialon等人，2023)。另一项工作(fsamry et al, 2020;Verga等，2021;Zhong等人，2022b)学习并存储实体或事实表示，并将其作为输入提供给生成器。虽然这些方法都解决了基于知识的生成问题，但它们都需要对生成器进行全面微调，这可能会由于灾难性遗忘而退化基本模型的零射击能力，并且会产生显着的计算成本。最近的一项工作(Peng et al .， 2023)通过将知识上下文纳入提示并提供文本反馈，提高了ChatGPT响应的接地性。虽然这项工作为基于知识的生成引入了一种非训练方法，但它强烈依赖于基础LM理解文本反馈和生成参考知识的能力。相反，我们建议用一种方法来缓解这个问题，这种方法不涉及对生成器权重的微调，并且与模型无关。
• INSIDE: LLMS’ INTERNAL STATES RETAIN THE POWER OF HALLUCINATION DETECTION内部:llms的内部状态保留了幻觉检测的能力
• 我们建议探索llm内部状态中保留的密集语义信息，用于幻觉检测(INSIDE)。特别提出了一种简单有效的特征值度量方法，利用响应的协方差矩阵特征值来度量密集嵌入空间中的语义一致性/多样性，从而更好地评价响应的自一致性。

Reliability Evaluation of LLMs
在实际部署中，llm的可靠性提出了一个重大挑战，因为llm显示出它们倾向于表现出不可靠的世代(Ji等人，2023;Zhang et al, 2023)。因此，人们在llm的安全性和可靠性评估方面做了大量的工作(Huang et al .， 2023;Malinin & Gales, 2020;Kuhn et al, 2022;Kadavath等人，2022;Cohen等人，2023;Azaria & Mitchell, 2023)。在这些方法中，基于不确定性的度量已被广泛探索，它通常涉及输出令牌的预测置信度或熵(Malinin & Gales, 2020;Kuhn et al, 2022;Duan et al .， 2023)。此外，基于一致性的方法在可靠性评估中也发挥着重要作用，该方法假设llm在犹豫不决和幻觉内容时倾向于对同一问题产生逻辑上不一致的回答(Kuhn et al, 2022;Raj等人，2023;Manakul et al, 2023)。基于一致性假设，研究人员还发现，促使法学硕士自己评估他们的回答是可行的(Kadavath et al .， 2022;Cohen等人，2023;Manakul et al, 2023)。

• IMPLICIT CHAIN OF THOUGHT REASONING VIA KNOWLEDGE DISTILLATION通过知识升华的隐性思维链推理
• 我们使用语言模型的内部隐藏状态来执行隐式推理，而不是明确地产生思维推理步骤链。隐式推理步骤是从受过显式思维链推理训练的教师模型中提炼出来的，
研究表明，在充分优化的情况下，语言模型可以解决基本的算术任务(Power et al, 2022)。即使对于需要多步推理的任务，增加模型和数据大小也可以提高模型的直接性能。例如，Wei等人(2022a)观察到，随着训练FLOPs从1021增加到1024,GSM8K数据集(无CoT)上的测试准确率从5%以下上升到7%左右。在我们工作的同时，Yang等人(2023)通过50M训练样例的课程学习，训练出求解5×5乘法的2B语言模型，准确率达到89.9%。这些发现表明，足够比例的模型可以在多个步骤中进行内部推理。我们的方法的不同之处在于它使用教师模型的思维过程来更有效地获得这些模型。
• Hallucination is Inevitable: An Innate Limitation of Large Language Models幻觉是不可避免的:大型语言模型的先天限制

近年来，法学硕士对探索幻觉的兴趣日益浓厚。本节简要概述了该领域的相关研究。为了对法学硕士中的幻觉进行广泛的回顾，读者可以参考最近的调查[24,29,37,46,66]。
Classification of Hallucination
语言模型中的幻觉通常分为现象性和机械性两类。前一种方法根据结果对幻觉进行分类，而后一种方法侧重于训练和部署方法。本节讨论现象分类，我们将在2.2节讨论机械分类。幻觉的一种传统分类是内在-外在二分类[14,25,29,75]。当LLM输出与提供的输入(如提示)相矛盾时，就会产生内在幻觉。
另一方面，当LLM输出不能被输入中的信息验证时，就会出现外在幻觉。Huang等人[24]通过引入忠实幻觉(faithfulness hallucination)扩展了这种两分法，忠实幻觉将用户指令考虑在内，包括教学、语境和逻辑的不一致性。Rawte等[52]将幻觉分为“事实海市蜃楼”(factual mirage)和“一线希望”(silver lining)，表示基于事实正确或错误输入的错误输出。每一类进一步分为内在类和外在类，并进一步分解为缩略语歧义和地理勘误等情况。

Causes of Hallucination
幻觉通常归因于现有调查中发现的数据、训练和推理阶段的问题[24,29]。数据中存在的问题包括质量差[31]、信息错误[35]、存在偏见[41,47]、知识过时[33,43]等。此外，在野外，相当一部分知识是长尾的，这使得在部署过程中很难回忆起来[30,38]。在训练期间，模型可能会遭受架构和策略上的缺陷，从而阻碍正确的学习。例如，暴露偏差[4]是一个众所周知的问题，它是由教师强制训练策略导致的训练和推理不一致所导致的[50]。注意机制是基于变压器的llm的一个关键组成部分，它也可能导致幻觉[36]，这可能是因为随着序列长度的增长，token之间的注意力被稀释了[10,22]。在推理过程中，也可以产生幻觉由采样随机性[1,14]、上下文关注不足[55]和softmax瓶颈[9,73]引起.
Mitigating Hallucination 减轻幻觉包括解决其根本原因。对于与数据相关的问题，解决方案包括以事实为中心的数据集[17,21]和开发自动数据清洗技术[42,51,54]。检索增强(Retrieval augmentation)使用相关的外部文档来建立法学硕士，可以帮助减少知识差距，减少幻觉[57,76]。像思维链(chain -of- thought)[69]和思维树(Tree-of-Thought)[74]这样的提示技术已经被应用于提高知识回忆和推理能力[67]。为了减轻与培训相关的幻觉，提出了架构改进和培训目标。例如，锐化softmax函数[36]可以解决注意力稀释的问题。事实增强的训练目标[32,56]已被证明可以提高模型关联事实和产生逻辑输出的能力。为了克服与推理相关的幻觉，引入了新的解码方法来提高llm的真实性或可信度。Lee等人[32]提出的事实核抽样(Factual-nucleus sampling)旨在平衡模型输出的多样性和事实性。Dhuliawala等人[13]引入的验证链(Chain-of-Verification)促使LLM在生成过程中自我纠正错误。

• Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models幻觉检测:在大型语言模型中稳健地识别可靠答案
Hallucination detection.
现有的研究主要包括统计度量[21,66,72]、基于模型的度量(包括基于信息提取(IE)的度量、基于qa的度量[25,57,60]、自然语言推理(NLI)度量[26,32,73]、忠实分类度量[25,41,79]、基于机器学习的度量[19,67])和基于人的评价[61,65]。我们列举了一些典型的研究成果如下:dhinggra等[15]提出了PARENT方法，使用源文本和目标文本作为参考来测量幻觉。Goyal和Durrett[20]试图用一种新的依赖级蕴涵，以更细粒度的方式识别事实不一致性。Liu等[41]和Zhou等[79]通过在训练实例中自动插入幻觉来构建句法数据。Chen等人[8]和Nie等人[47]分别对内在幻觉和外在幻觉使用更细粒度的度量。Azaria等[2]利用llm的内部状态和隐藏层激活来检测生成语句的真实性。Ye等[76]认为用户生成的查询输入中的错误可能会导致llm的意外响应
Hallucination mitigation.
也有一些工作专注于减轻幻觉。例如Dale等人[13]和Ji等人[27]研究了机器翻译中的幻觉现象。Pagnoni等[50]解决了文本摘要中的幻觉问题。Peng等[53]采用多种方法来提示llm，包括发布多个查询。欧阳等[49]提出了一种增强法学硕士生成内容的方法。Yan等[74]介绍了一种基于提示工程的迭代自评估优化机制。Park等人[52]利用与用户输入查询相对应的搜索结果来生成增强查询

• Fine-tuning Language Models for Factuality对事实性的语言模型进行微调
许多研究已经发现，减少事实错误(有时被称为“幻觉”)是构建更可靠的语言模型的关键挑战(Lewis等人，2020;Kadavath等人，2022;Zhang等人，2023)，甚至对于最强大的语言模型(Bubeck等人，2023)也是如此。“幻觉”一词的其他用法是指参考文本不支持的摘要或翻译系统输出(Maynez等人，2020;Zhang et al, 2020)，即使它们是事实(Cao et al, 2022)。其他工作使用“幻觉”来描述产生输出的视觉语言模型，而不是基于视觉输入，例如，描述图像中不存在的物体的字幕系统(Rohrbach等人，2018)。在我们的案例中，我们关注的是事实不正确的陈述(或者与一组“权威”文本不一致，比如维基百科)。
一些作品描述了通过对提示中的扰动的敏感性来检测可能的事实错误的方法(Xu等人，2023)，重采样下响应的高度多样性(Kadavath等人，2022;m ndler等，2023;Kuhn et al, 2023)，或者与外部知识来源不一致(Min et al, 2023;Chern et al .， 2023)，或内部激活的特性(Azaria & Mitchell, 2023)。另一些则超越了检测错误，在错误产生后进行纠正(Peng et al .， 2023;Gao等，2023;杜利亚瓦拉等人，2023)。
这些方法通常依赖于从可信知识库中检索相关数据，并使用另一个LLM来验证一致性;然而，基于检索的方法面临关键挑战，即可靠地解决参数知识和检索知识之间的冲突(Longpre等人，2022;Chen等人，2022)，以及随着模型规模的增加而保持事实性的改进(malallen等人，2023)。此外，基于检索的方法增加了显著的系统复杂性;因此，最常见的开源消费者语言模型使用纯参数化模型(Touvron et al, 2023a)。我们方法的FactScore变体仅在训练期间使用检索，避免了推理时间复杂性。
与我们的研究最相似的是，一些方法试图首先防止事实错误的产生，使用提示策略(Si等人，2023)或干扰模型的内部表示(Chuang等人，2023;Li et al .， 2023)。与使用固定的启发式来识别内部“事实”维度不同，我们直接优化生成事实陈述的最终目标，我们发现这显示出更大的im9事实证明。最后，虽然大多数过去的工作都集中在短格式NLG任务上，如短格式问答(Kadavath等人，2022)，但我们探索了在长格式、非结构化文本的事实信息上测量模型置信度的方法，并以无参考的方式估计真实性(即不需要任何外部知识库或注释)。
• Editing Language Model-based Knowledge Graph Embeddings编辑基于语言模型的知识图嵌入
• 基于语言模型的KG嵌入通常被部署为静态构件，这使得它们很难在部署后进行修改，除非在部署后进行重新培训。为了解决这个问题，我们提出了一个新的任务，即编辑基于语言模型的KG嵌入。该任务旨在促进对KG嵌入的快速、数据高效更新，而不会影响其他方面的性能。

• EasyQuant: An Efficient Data-free Quantization Algorithm for LLMsH一种有效的LLMs无数据量化算法

• Direct Preference Optimization:Your Language Model is Secretly a Reward Model直接偏好优化:你的语言模型其实是一个奖励模型

• RLHF是一个复杂且不稳定的过程. 本文中，我们引入了一种新的RLHF奖励模型的参数化方法，使我们能够以封闭的形式提取相应的最优策略，从而使我们能够以简单的分类损失来解决标准的RLHF问题。由此产生的算法，我们称之为直接偏好优化(Direct Preference Optimization, DPO)，稳定、高性能且计算量轻，在微调或执行重要的超参数调优期间不需要从LM中采样。
不断扩大规模的自监督语言模型学习完成一些任务的零提示[31]或少提示[6,25,11]。然而，通过对指令和人工完成的数据集进行微调，它们在下游任务上的性能和与用户意图的一致性可以显著提高[23,36,13,39]。这种“指令调优”过程使llm能够泛化到指令调优集之外的指令，并通常提高它们的可用性[13]。尽管指令调整取得了成功，但相对于专家演示，人类对响应质量的判断往往更容易收集，因此后续的作品使用人类偏好的数据集对llm进行了调整，提高了翻译[18]、总结[38,49]、讲故事[49]和指令遵循[26,32]的熟练程度。这些方法首先在偏好模型下优化神经网络奖励函数，使其与偏好数据集兼容Bradley-Terry模型[5]，然后使用强化学习算法对语言模型进行微调，使给定的奖励最大化，通常是强化[45]，近端策略优化(PPO;[37])或变体[32]。一个密切相关的工作是利用LLM对指令跟随进行微调，并与人类反馈相结合，为目标属性(如安全或无害)生成额外的合成偏好数据[2]，仅使用人类以文本标题形式对LLM的注释进行弱监督。这些方法代表了两种工作的融合:一种是针对各种目标使用强化学习训练语言模型的工作[33,27,46]，另一种是针对从人类偏好中学习的一般方法的工作[12,19]。尽管使用相对人类偏好很有吸引力，但用强化学习对大型语言模型进行微调仍然是一个重大的实际挑战;这项工作提供了一种理论上合理的方法来优化相对偏好，而不需要强化学习。
在语言环境之外，从偏好中学习策略已经在强盗和强化学习设置中进行了研究，并提出了几种方法。情境强盗学习使用偏好或行动排名，而不是奖励，被称为情境决斗强盗(CDB;[48、14])。在没有绝对奖励的情况下，CDBs的理论分析用冯·诺伊曼赢家(von Neumann winner)替代了最优政策的概念，该政策相对于任何其他政策的预期胜率至少为50%[14]。然而，在CDB设置中，偏好标签是在线给出的，而在学习人类偏好时，我们通常从固定批次的离线偏好注释动作对中学习[47]。同样，基于偏好的强化学习(PbRL)从未知的“评分”函数而不是奖励产生的二元偏好中学习[9,35]。PbRL存在多种算法，包括可以重用非策略偏好数据的方法，但通常首先需要显式估计潜在评分函数(即奖励模型)，然后对其进行优化[16,9,12,34,19]。相反，我们提出了一种单阶段策略学习方法，直接优化策略以满足偏好

• CURIOSITY-DRIVEN RED-TEAMING FOR LARGE LANGUAGE MODELS好奇心驱动的大型语言模型红队
• 我们建议使用好奇心驱动的探索优化新颖性来训练红队模型，以生成一组多样化和有效的测试用例。我们通过在文本延续和指令跟随任务中对llm执行红队来评估我们的方法。
自动红队。
最近的先前工作(Perez等人，2022)研究了llm的各种红队方法，包括基于RL的方法。并发工作(Mehrabi et al, 2023)基于分类器预测的分数迭代更新红队模型提示中的示例测试用例。同时，为了提高红队的样本效率，Lee等人(2023)通过在给定的提示池中生成带有单词替换的测试用例，限制了红队模型输出的搜索空间。另一项同时进行的工作(Casper等人，2023)提出了一种红队工作流程，通过结合目标模型输出的反馈来微调红队模型的奖励函数R(第2节)，旨在提高目标模型响应的奖励预测的准确性。我们的工作不同于这些并行的和先前的工作，因为我们专注于通过在强化学习中建立探索策略来增强测试用例的多样性。
语言模型中的对抗性攻击。
红队和对抗性攻击都旨在发现从目标模型(文本生成模型或分类器)中引发不期望的响应或预测的输入。通常，针对语言模型的对抗性攻击(Wallace等人，2019;邹等，2023;Ebrahimi等人，2017)专注于干扰输入(例如，替换单词Wallace等人(2019))来欺骗模型，而红队方法(Perez等人，2022;Ganguli等人，2022)注重产生新的投入。然而，这两种范式并不是截然不同的，它们的技术可以共享。
在本文中，我们基于Perez等人(2022)研究了RL中的勘探策略与红队之间的联系，因为它是自动化红队llm在RL中的开创性工作。
• Contrastive Chain-of-Thought Prompting
大型语言模型的最新发展表明，大规模缩放模型的大小和训练数据可以极大地提高泛化能力(Kaplan et al, 2020)。值得注意的是，当给予适当的提示和演示时，大型语言模型已被证明可以泛化到新的任务(Brown et al, 2020)。这带来了一种新的范例，即在不需要额外训练的情况下利用语言模型来完成任务(Liu et al, 2023)。然而，简单地缩放语言模型还不足以在算术推理和事实问题回答等具有挑战性的任务上获得良好的性能(Wei et al .， 2022b)。因此，在这项工作中，我们的重点是通过提示来提高大型语言模型的推理能力。
思维链提示由Wei等人(2022b)引入，通过生成中间步骤来增强语言模型推理。值得注意的是，这启发了许多建立在这个逐步推理方向上的作品。例如，提出了自动思维链(Zhang et al .， 2023)来解决手动注释思维链演示的挑战。另一方面，研究表明，特定的提示，如“让我们一步一步地思考”，可以使语言模型在没有任何演示的情况下，以零shot的方式执行思维链(Kojima et al, 2022)。此外，具有挑战性的问题可以分解成多个子问题(Zhou et al .， 2023)，甚至可以分解成可以自动执行的代码程序(Gao et al .， 2023)。尽管在多个方面的思维链方面取得了进展，但我们仍然缺乏对潜在机制的严格理解(Turpin et al, 2023;Feng et al, 2023)。在这项工作中，受到先前关于无效演示的研究结果的启发，我们提出了对比思维链来增强语言模型推理。由于对比思维链利用了有效和无效的推理论证，我们相信这可能会鼓励其他研究人员从根本上重新思考思维链的过程。
虽然思维链提示通常只涉及有效的演示，但不清楚无效的演示是否也有利于推理过程(Wang et al, 2023)。另一方面，从负面或无效的样本中学习并不新鲜。例如，对比学习是一种成熟的深度学习方法，它鼓励模型区分“正”和“负”样本，从而学习更好的表示(Khosla et al, 2020)。类似地，基于人类反馈的强化学习(RLHF)基于人类偏好数据的正负样本训练奖励模型(Ouyang等人，2022;Christiano et al, 2017)。因此，受先前方法的启发，我们提出了对比思维链，这是思维链提示的一般增强，通过使模型能够从有效和无效的推理演示中学习。

• Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback∗检查你的事实并再试一次:用外部知识和自动反馈改进大型语言模型*
• 本文提出了一种LLM- augmenter系统，该系统通过一组即插即用模块对黑盒LLM进行扩充。我们的系统使法学硕士生成基于外部知识的响应，例如，存储在特定任务的数据库中。它还迭代地修改LLM提示，以使用由效用函数生成的反馈来改进模型响应，例如，LLM生成的响应的事实性得分。
多年来，已经提出了许多用于文本生成的法学硕士(Radford等人，2018)，包括非常有竞争力的法学硕士，如GPT-3 (Brown等人，2020;欧阳等，2022)、OPT (Zhang等，2022)、GPT-j (Wang和Komatsuzaki, 2021)和ChatGPT。然而，它们中的大多数并没有自然地吸收外部知识。为了解决这一限制，各种工作增加了法学硕士的知识，包括个性化推荐(Ghazvininejad等人，2017)，维基百科文章和网络搜索(Dinan等人，2018;Shuster等人，2022)，任务导向对话的结构化和非结构化知识(Peng等人，2022)。最近的进展集中在联合微调检索增强文本生成系统的检索器和生成组件(Lewis et al, 2020;Zhang et al .， 2021)，但这些方法不适用于黑盒llm。
最近的工作试图将黑盒法学硕士与外部知识结合起来，例如将外部知识纳入提示(Madaan等人，2022;Lazaridou等人，2022)，使GPT-3更忠实(He等人，2022)，并将web知识与GPT-3相结合(Nakano等人，2021)。在最近与我们相关的工作中，Shi等人(2023)调整了黑盒LLM的排名。Schick et al . (2023) tune black-box llm ’
访问不同的api，并显示对各种理解和推理任务的改进。
我们认为这些工作是对我们的工作的补充，因为我们假设我们的api集是给定和固定的，我们更多地关注何时以及请求什么api，与LLM的交互反馈，以及通过效用函数开发自我学习能力