【AI视野·今日NLP 自然语言处理论文速览第五十一期】Tue, 10 Oct 2023_improving summarization with human edits-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/133763912

AI视野·今日CS.NLP 自然语言处理论文速览
Tue, 10 Oct 2023 (showing first 100 of 172 entries)
Totally 100 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Few-Shot Spoken Language Understanding via Joint Speech-Text Models
Authors Chung Ming Chien, Mingjiamei Zhang, Ju Chieh Chou, Karen Livescu
最近关于与文本联合预训练的语音表示模型的工作已经证明了通过在共享空间中编码语音和文本来改进语音表示的潜力。在本文中，我们利用这种共享表示来解决口语理解任务中数据可用性有限的持续挑战。通过采用预先训练的语音文本模型，我们发现对文本进行微调的模型可以有效地转移到语音测试数据。与之前使用仅语音预训练模型对 10 倍以上数据进行微调的方法相比，我们提出的方法只需 1 小时的标记语音数据，即可在口语理解任务（特别是情感分析和命名实体识别）上实现可比的性能。除了概念验证研究之外，我们还分析了潜在的表征。

FireAct: Toward Language Agent Fine-tuning
Authors Baian Chen, Chang Shu, Ehsan Shareghi, Nigel Collier, Karthik Narasimhan, Shunyu Yao
最近的努力通过外部工具或环境增强了语言模型 LM，从而导致了能够推理和行动的语言代理的开发。然而，这些智能体中的大多数都依赖于现成的 LM 的少量射击提示技术。在本文中，我们对微调 LM 以获得语言代理的被忽视的方向进行了调查和争论。使用带有 Google 搜索 API 的问答 QA 设置，我们探索了各种基础 LM、提示方法、微调数据和 QA 任务，并发现语言代理在微调其骨干 LM 后得到了持续改进。例如，使用 GPT 4 生成的 500 个代理轨迹对 Llama2 7B 进行微调，可使 HotpotQA 性能提高 77 个。此外，我们提出了 FireAct，这是一种通过多个任务和提示方法的轨迹来微调 LM 的新方法，并表明拥有更多样化的微调数据可以进一步改进智能体。

NEFTune: Noisy Embeddings Improve Instruction Finetuning
Authors Neel Jain, Ping yeh Chiang, Yuxin Wen, John Kirchenbauer, Hong Min Chu, Gowthami Somepalli, Brian R. Bartoldson, Bhavya Kailkhura, Avi Schwarzschild, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein
我们证明，通过简单的增强，语言模型的微调可以得到改善，有时甚至是显着的改善。 NEFTune 在训练期间向嵌入向量添加噪声。使用 Alpaca 对 LLaMA 2 7B 进行标准微调，在 AlpacaEval 上达到 29.79，使用噪声嵌入则升至 64.69。 NEFTune 还改进了现代教学数据集的强大基线。使用 Evol Instruct 训练的模型提高了 10 个，使用 ShareGPT 训练的模型提高了 8 个，使用 OpenPlatypus 训练的模型提高了 8 个。

SALMON: Self-Alignment with Principle-Following Reward Models
Authors Zhiqing Sun, Yikang Shen, Hongxin Zhang, Qinhong Zhou, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan
对响应演示的监督微调 SFT 与人类反馈 RLHF 的强化学习相结合，构成了调整基于 LLM 的 AI 代理的强大范例。然而，这种方法的一个显着限制是它依赖于高质量的人工注释，由于难以获得一致的响应演示和分布响应偏好，使得其在复杂任务中的应用具有挑战性。本文提出了一种新颖的方法，即 SALMON 自对齐与遵循奖励模型的原则，以最少的人类监督来对齐基本语言模型，仅使用一小组人类定义的原则，但却实现了卓越的性能。我们方法的核心是遵循奖励模型的原则。该模型经过综合偏好数据的训练，可以根据任意人类定义的原则生成奖励分数。只需在 RL 训练阶段调整这些原则，我们就可以通过奖励模型完全控制偏好，从而影响 RL 训练策略的行为，并消除对在线人类偏好收集的依赖。将我们的方法应用于 LLaMA 2 70b 基本语言模型，我们开发了一款名为 Dromedary 2 的 AI 助手。Dromedary 2 仅具有 6 个上下文学习示例和 31 个人类定义的原则，显着超越了几种最先进的 AI 系统的性能，包括 LLaMA 2 Chat 70b，在各种基准数据集上。

Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models
Authors Archiki Prasad, Elias Stengel Eskin, Mohit Bansal
通过将大型语言模型 LLM 与视觉编码器相结合，可以在几乎不需要训练的情况下（即以零和少量的方式）处理越来越多的视觉语言任务，从而产生大型视觉语言模型 LVLM。虽然这有巨大的优势，例如不需要训练数据或自定义架构，但如何将输入呈现给 LVLM 会对零样本模型性能产生重大影响。特别是，由于缺少视觉信息、复杂的隐式推理或语言歧义等因素，以未指定的方式表达的输入可能会导致错误的答案。因此，在输入中添加基于视觉的信息作为先发制人的澄清，应该可以通过减少指定不足（例如，通过本地化对象和消除引用歧义）来提高模型性能。同样，在 VQA 设置中，改变问题的构建方式可以使模型更容易回答。为此，我们提出了 Rephrase、Augment 和 Reason RepARe，这是一个无梯度框架，它使用底层 LVLM 作为描述器和推理器来提取图像的显着细节，以便对原始问题提出修改建议。然后，我们使用 LVLM 对生成答案的置信度作为无监督评分函数来选择最有可能提高零样本性能的改写问题。重点关注两个视觉问答任务，我们表明 RepARe 可以使 VQAv2 上的零样本性能绝对提高 3.85 分，使 A OKVQA 上的零样本性能提高 6.41 分。此外，我们发现使用黄金答案来选择预言问题候选者可以使 VQA 准确率大幅提高，最高可达 14.41 。

Improving Summarization with Human Edits
Authors Zonghai Yao, Benjamin J Schloss, Sai P. Selvaraj
最近的工作表明，利用人类反馈范式进行学习可以产生人类确定的高质量文本。现有的工作使用人类反馈来训练通用领域抽象摘要中的大型语言模型LLM，并获得了超过传统似然训练的摘要质量。在本文中，我们重点关注一种较少探索的人类反馈人类编辑形式。我们提出了序列比对和似然训练 SALT，这是一种在训练循环中同时使用人工编辑和模型生成的数据的新技术。此外，我们还演示了使用来自现有训练数据模仿编辑的真实摘要以及训练后获得的模型生成的摘要来模拟人工编辑，以减少对昂贵的人工编辑数据的需求。在我们的实验中，我们将人类反馈探索从一般领域总结扩展到医学领域总结。

GraphLLM: Boosting Graph Reasoning Ability of Large Language Model
Authors Ziwei Chai, Tianjie Zhang, Liang Wu, Kaiqiao Han, Xiaohai Hu, Xuanwen Huang, Yang Yang
大型语言模型法学硕士的进步极大地推动了通用人工智能（AGI）的发展，它们具有理解不同类型信息（包括但不限于图像和音频）的卓越能力。尽管取得了这些进展，但在使法学硕士能够熟练地理解和推理图数据方面仍然存在重大差距。最近的研究强调了法学硕士在基本图形推理任务上的表现不佳。在本文中，我们致力于找出阻碍法学硕士进行图推理的障碍，指出将图转换为自然语言描述 Graph2Text 的常见做法是一个基本瓶颈。为了克服这一障碍，我们引入了 GraphLLM，这是一种开创性的端到端方法，可将图学习模型与法学硕士协同集成。这种协同作用使法学硕士能够熟练地解释和推理图数据，利用图学习模型的卓越表达能力。我们对四个基本图推理任务的实证评估验证了 GraphLLM 的有效性。

Terminology-Aware Translation with Constrained Decoding and Large Language Model Prompting
Authors Nikolay Bogoychev, Pinzhen Chen
术语正确性在机器翻译的下游应用中非常重要，确保这一点的普遍方法是将术语约束注入翻译系统。在提交 WMT 2023 术语翻译任务时，我们采用先翻译后细化的方法，该方法可以独立于领域，并且需要最少的手动工作。我们使用从单词对齐获得的伪术语翻译来注释随机源单词，以首先训练术语感知模型。此外，我们探索了两种后处理方法。首先，我们使用对齐过程来发现术语约束是否被违反，如果是，我们用负约束的违规词重新解码。或者，我们利用大型语言模型通过提供术语约束来完善假设。

SC-Safety: A Multi-round Open-ended Question Adversarial Safety Benchmark for Large Language Models in Chinese
Authors Liang Xu, Kangkang Zhao, Lei Zhu, Hang Xue
ChatGPT 和 GPT 4 等大型语言模型 LLM 在自然语言理解和生成方面表现出了卓越的能力。然而，除了对我们的日常任务产生积极影响外，它们还可能产生有害内容，对社会观念产生负面影响。为了系统地评估中国法学硕士的安全性，我们引入了 SuperCLUE Safety SC Safety，这是一个多轮对抗性基准，包含 4912 个开放式问题，涵盖 20 多个安全子维度。与现有方法相比，对抗性人类模型交互和对话显着增加了挑战。对支持中国的 13 个主要 LLM 进行的实验得出以下见解 1 闭源模型在安全性方面优于开源模型 2 中国发布的模型表现出与 GPT 3.5 Turbo 等 LLM 相当的安全水平 3 一些具有 6B 13B 参数的较小模型可以在以下领域有效竞争安全方面。通过引入 SC Safety，我们的目标是促进合作，打造更安全、更值得信赖的法学硕士。基准和调查结果为模型选择提供了指导。

Are Large Language Models Post Hoc Explainers?
Authors Nicholas Kroeger, Dan Ley, Satyapriya Krishna, Chirag Agarwal, Himabindu Lakkaraju
大型语言模型 LLM 越来越多地用作众多自然语言处理 NLP 应用程序的强大工具。最近在上下文学习 ICL 方面的一项创新，使法学硕士能够通过在推理期间在提示中提供一些示例来学习新任务，从而消除了模型微调的需要。虽然法学硕士已在多种应用中得到利用，但它们在解释其他模型行为方面的适用性仍然相对未经探索。尽管新的解释技术越来越多，但许多技术需要白盒访问模型，并且/或计算成本高昂，这凸显了对下一代事后解释器的需求。在这项工作中，我们提出了第一个框架来研究法学硕士在解释其他预测模型方面的有效性。更具体地说，我们提出了一种新颖的框架，其中包含多种提示策略 i 基于扰动的 ICL、ii 基于预测的 ICL、iii 基于指令的 ICL 和 iv 基于解释的 ICL，具有有关底层 ML 模型和测试的局部邻域的不同级别的信息样本。我们对现实世界的基准数据集进行了广泛的实验，以证明 LLM 生成的解释与最先进的事后解释器的性能相当，利用它们利用 ICL 示例的能力及其在生成模型解释时的内部知识。

Problem-Solving Guide: Predicting the Algorithm Tags and Difficulty for Competitive Programming Problems
Authors Juntae Kim, Eunjung Cho, Dongwoo Kim, Dongbin Na
最近的程序开发行业要求工程师，尤其是应用程序开发人员具有解决问题的能力。然而，基于人工智能来帮助解决计算机算法问题的教育系统尚未引起人们的关注，而大多数大型科技公司都需要解决算法问题的能力，包括谷歌、Meta和亚马逊。解决算法问题最有用的指南可能是猜测所面临问题的类别标签。因此，我们的研究解决了预测算法标签的任务，将其作为工程师和开发人员的有用工具。此外，我们还考虑预测算法问题的难度级别，这可以作为计算解决该问题所需时间的有用指导。在本文中，我们主要通过从最著名的大型竞争编程网站Codeforces收集问题样本，提出了一个现实世界的算法问题多任务数据集AMT。据我们所知，与之前的研究相比，我们提出的数据集是用于预测算法标签的最大规模的数据集。此外，我们的工作是第一个解决预测算法问题难度级别的工作。我们提出了一种基于深度学习的新方法，用于同时预测算法标签和给定算法问题的难度级别。

Aligning Language Models with Human Preferences via a Bayesian Approach
Authors Jiashuo Wang, Haozhao Wang, Shichao Sun, Wenjie Li
为了推进以人类为中心的自然语言生成 NLG 系统，确保 NLG 模型与人类偏好之间的一致性至关重要。为了实现这种一致性，当前流行的方法利用了强化学习 RL 方法以及根据人类反馈进行训练的奖励模型。然而，由于人类偏好的主观性质而产生的固有分歧给奖励模型的训练带来了重大挑战，导致 NLG 性能恶化。为了解决这个问题，以前的方法通常依靠多数投票或平均来将多个不一致的偏好合并为一个合并的偏好。尽管易于理解和执行，但此类方法无法捕捉人类之间的细微差别，并且可能仅代表个体的特定子集，因此缺乏定量揭示人类偏好的普遍性的能力。为了应对这一挑战，本文提出了一种新颖的方法，采用贝叶斯框架来解释人类偏好之间的分歧分布，并训练偏好模型，并将其命名为 d PM。此外，考虑到强化学习策略的训练过程效率低下且复杂，我们进一步提出利用对比学习策略利用从 d PM 模型导出的偏好分数来训练 NLG 模型。

Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena
Authors Jiangjie Chen, Siyu Yuan, Rong Ye, Bodhisattwa Prasad Majumder, Kyle Richardson
大型语言模型法学硕士能否在复杂环境中模拟人类行为法学硕士最近被证明具有先进的推理能力，但大部分 NLP 评估仍然依赖于静态基准。回答这个问题需要评估环境，在涉及长期规划的竞争性、动态场景中探索战略推理。我们介绍 AucArena，这是一种用于在拍卖中评估法学硕士的新型模拟环境，选择这种环境的原因是高度不可预测，涉及与资源和风险管理相关的许多技能，同时也易于评估。我们使用最先进的法学硕士作为投标代理进行了多次受控模拟。我们发现，通过简单的提示，法学硕士确实展示了有效参与拍卖所需的许多技能，例如管理预算、坚持长期目标和优先事项，我们发现可以通过明确鼓励模型适应和观察来提高这些技能过去拍卖的策略。这些结果意义重大，因为它们显示了使用 LLM 代理来模拟复杂的社会动态的潜力，尤其是在竞争环境中。然而，我们也观察到各个法学硕士的能力存在很大差异。

LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models
Authors Huiqiang Jiang, Qianhui Wu, Chin Yew Lin, Yuqing Yang, Lili Qiu
大型语言模型法学硕士因其惊人的能力而被应用于各种应用中。随着思想链 CoT 提示和上下文学习 ICL 等技术的进步，LLM 的提示变得越来越长，甚至超过数万个 token。为了加速模型推理并降低成本，本文提出了 LLMLingua，一种从粗到细的提示压缩方法，其中涉及预算控制器以在高压缩比下保持语义完整性，一种令牌级迭代压缩算法以更好地建模压缩内容之间的相互依赖关系，以及一种基于指令调优的方法，用于语言模型之间的分布对齐。我们对来自不同场景的四个数据集（即 GSM8K、BBH、ShareGPT 和 Arxiv March23）进行了实验和分析，表明所提出的方法产生了最先进的性能，并允许高达 20 倍的压缩，而性能损失很小。

The Program Testing Ability of Large Language Models for Code
Authors Weimin Xiong, Yiwen Guo, Hao Chen
最近针对 CodeX 和 CodeT5 等代码开发的大型语言模型 LLM 展示了实现代码智能的巨大前景。他们合成代码来完成执行预定义任务的程序的能力已经在包括 HumanEval 和 MBPP 在内的基准数据集上进行了深入的测试和验证。然而，考虑到这些法学硕士在软件工程中的广泛应用范围，预计从程序综合之外的更多角度对这些法学硕士进行评估。在本文中，我们探讨了法学硕士测试程序代码的能力。通过对最近的法学硕士在程序测试中的代码进行彻底分析，我们展示了这些模型的一系列有趣的特性，并演示了如何提高法学硕士的程序测试能力。继最近利用生成的测试用例来增强程序综合的工作之后，我们进一步利用我们的发现来提高综合程序的质量，并显示与 GPT 3.5 Turbo 基线和最近的状态相比，HumanEval 的代码通过率分别提高了 11.77 和 4.22

Guiding Language Model Reasoning with Planning Tokens
Authors Xinyi Wang, Lucas Caccia, Oleksiy Ostapenko, Xingdi Yuan, Alessandro Sordoni
大型语言模型法学硕士最近因其执行复杂推理任务（例如思想链推理）的能力而引起了相当大的兴趣。然而，现有的增强这种能力的方法大多严重依赖数据驱动的方法，而忽略了模型推理能力的结构方面。我们发现，虽然法学硕士可以很好地管理单个推理步骤，但他们很难保持整个推理链的一致性。为了解决这个问题，我们在每个推理步骤开始时引入规划标记，作为模型的指南。然后，这些标记嵌入与其余模型参数一起进行微调。我们的方法需要可训练参数的增加可以忽略不计，仅为 0.001，并且可以通过完全微调或更参数有效的方案来应用。我们通过将我们的方法应用于三个不同的法学硕士来展示我们的方法的有效性，在三个数学应用题数据集上显示出显着的准确性改进。

An Attribution Method for Siamese Encoders
Authors Lucas M ller, Dmitry Nikolaev, Sebastian Pad
尽管连体编码器模型（例如句子变换器 ST ）取得了成功，但人们对它们关注的输入方面知之甚少。一个障碍是他们的预测不能归因于单个特征，因为他们比较两个输入而不是处理单个输入。本文通过将积分梯度原理推广到多输入模型，推导了连体编码器的局部归因方法。该解决方案采用特征对归因的形式，并且可以简化为 ST 的标记矩阵。我们的方法涉及引入积分雅可比行列式，并继承了积分梯度的有利形式属性，它解释了模型的完整计算图，并保证收敛到实际预测。一项试点研究表明，在 ST 中，几个标记对通常可以解释大部分预测，并且重点关注名词和动词。

A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics
Authors Kai He, Rui Mao, Qika Lin, Yucheng Ruan, Xiang Lan, Mengling Feng, Erik Cambria
大型语言模型法学硕士在医疗保健领域的使用既令人兴奋又令人担忧，因为它们能够有效地响应具有一定专业知识的自由文本查询。本次调查概述了当前开发的医疗保健法学硕士的能力，并阐述了其开发流程，旨在概述从传统预训练语言模型 PLM 到法学硕士的发展路线图。具体来说，我们首先探讨法学硕士在提高各种医疗保健应用程序的效率和有效性方面的潜力，强调其优点和局限性。其次，我们对以前的PLM和最新的LLM进行比较，以及各个LLM之间的比较。然后我们总结了相关的医疗保健训练数据、训练方法、优化策略和使用情况。最后，调查了与在医疗保健环境中部署法学硕士相关的独特问题，特别是在公平性、问责制、透明度和道德方面。我们的调查从计算机科学和医疗保健专业的角度进行了全面的调查。除了有关医疗保健问题的讨论之外，我们还通过编译一系列开源资源来支持计算机科学界，例如 Github 中的可访问数据集、最新方法、代码实现和评估基准。总之，我们认为重大范式转变正在发生，从 PLM 过渡到 LLM。

Larth: Dataset and Machine Translation for Etruscan
Authors Gianluca Vico, Gerasimos Spanakis
伊特鲁里亚语是一种古老的语言，从公元前 7 世纪到公元 1 世纪在意大利使用。目前该语言没有母语人士，其资源也稀缺，已知铭文仅约 12,000 处。据我们所知，没有公开的用于自然语言处理的伊特鲁里亚语料库。因此，我们提出了一个从伊特鲁里亚语到英语的机器翻译数据集，其中包含来自现有学术来源的 2891 个翻译示例。一些示例是手动提取的，而另一些示例是自动获取的。我们与数据集一起对不同的机器翻译模型进行了基准测试，观察到使用小型 Transformer 模型可以实现 10.1 的 BLEU 分数。