【AI视野·今日NLP 自然语言处理论文速览第五十六期】Tue, 17 Oct 2023_demosg: demonstration-enhanced schema-guided gener-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/133915696

AI视野·今日CS.NLP 自然语言处理论文速览
Tue, 17 Oct 2023 (showing first 100 of 135 entries)
Totally 100 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Step-by-Step Remediation of Students' Mathematical Mistakes
Authors Rose E. Wang, Qingyang Zhang, Carly Robinson, Susanna Loeb, Dorottya Demszky
扩大高质量辅导是教育领域的一项重大挑战。由于需求不断增长，许多平台聘请了新手导师，与专业教育工作者不同，他们很难有效地解决学生的错误，从而无法为学生抓住最佳的学习机会。在本文中，我们探讨了大型语言模型法学硕士协助数学导师纠正学生错误的潜力。我们推出 ReMath，这是与经验丰富的数学教师共同开发的基准，可以解构他们的补救思维过程。该基准由三个分步任务组成：1 推断学生错误的类型，2 确定解决错误的策略，3 生成包含该信息的响应。我们评估了 ReMath 上最先进的指令调整和对话模型的性能。我们的研究结果表明，尽管模型不断改进原始导师的反应，但我们不能仅依靠模型来纠正错误。为模型提供错误类型（例如，学生正在猜测）和策略（例如，简化问题）会导致响应质量比没有该信息的模型提高 75。尽管如此，尽管有所进步，最佳模型的回答质量仍然低于经验丰富的数学老师。我们的工作揭示了利用现有法学硕士为导师和学生大规模提供高质量学习体验的潜力和局限性。

In-Context Pretraining: Language Modeling Beyond Document Boundaries
Authors Weijia Shi, Sewon Min, Maria Lomeli, Chunting Zhou, Margaret Li, Victoria Lin, Noah A. Smith, Luke Zettlemoyer, Scott Yih, Mike Lewis
大型语言模型 LM 目前经过训练，可以预测给定文档前缀的标记，使它们能够直接执行长格式生成和提示样式任务，这些任务可以简化为文档完成。现有的预训练管道通过连接随机的短文档集来创建输入上下文来训练语言模型，但先前的文档不提供用于预测下一个文档的信号。相反，我们提出了上下文预训练，这是一种新方法，其中语言模型在一系列相关文档上进行预训练，从而明确鼓励它们跨文档边界阅读和推理。我们可以通过简单地更改文档顺序来进行上下文预训练，以便每个上下文都包含相关文档，并直接应用现有的预训练管道。然而，这个文档排序问题具有挑战性。有数十亿个文档，我们希望排序能够最大化每个文档的上下文相似性，而不重复任何数据。为此，我们引入了近似算法，用于通过高效的最近邻搜索查找相关文档，并通过图遍历算法构建连贯的输入上下文。我们的实验表明，上下文预训练提供了一种简单且可扩展的方法，可以显着增强 LM 的性能，我们看到需要更复杂上下文推理的任务显着改进，包括上下文学习 8 、阅读理解 15 、忠实于先前上下文 16 、长上下文推理 5

"Mistakes Help Us Grow": Facilitating and Evaluating Growth Mindset Supportive Language in Classrooms
Authors Kunal Handa, Margaret Clapper, Jessica Boyle, Rose E Wang, Diyi Yang, David S Yeager, Dorottya Demszky
教师成长心态支持性语言 GMSL 修辞强调一个人的技能可以随着时间的推移而提高，已被证明可以显着减少学业成绩的差距并提高学生的学习成果。尽管教师拥护成长心态原则，但大多数教师发现由于缺乏该领域的有效辅导，很难在实践中采用 GMSL。我们探讨大型语言模型法学硕士是否可以提供自动化、个性化的辅导来支持教师使用 GMSL。我们建立了一个有效的辅导工具，通过开发 i 一个并行数据集，其中包含经过 GMSL 培训的教师对不支持性陈述的重构以及随附的注释指南，ii 一个 GMSL 提示框架，用于修改教师的不支持性语言，iii 一个基于心理学的评估框架在学生和教师的帮助下评估 GMSL 的理论。我们对 174 名教师和 1,006 名学生进行了大规模评估，发现教师和学生都认为接受 GMSL 培训的教师和模型重构在培养成长心态和促进挑战寻求行为等方面更有效。我们还发现，模型生成的重构优于接受过 GMSL 培训的教师的重构。这些结果显示了利用法学硕士为教师提供自动化 GMSL 反馈的前景，更广泛地说，法学硕士有支持学生在课堂上学习的潜力。

OpenAgents: An Open Platform for Language Agents in the Wild
Authors Tianbao Xie, Fan Zhou, Zhoujun Cheng, Peng Shi, Luoxuan Weng, Yitao Liu, Toh Jing Hua, Junning Zhao, Qian Liu, Che Liu, Leo Z. Liu, Yiheng Xu, Hongjin Su, Dongchan Shin, Caiming Xiong, Tao Yu
语言代理显示出能够利用自然语言在不同环境中执行各种复杂任务的潜力，特别是当建立在大型语言模型 LLM 上时。当前的语言代理框架旨在促进概念验证语言代理的构建，而忽略了非专家用户对代理的访问，并且很少关注应用程序级别的设计。我们推出 OpenAgents，这是一个开放平台，用于在日常生活中使用和托管语言代理。 OpenAgents 包括三个代理： 1 数据代理，用于使用 Python SQL 和数据工具进行数据分析 2 插件代理，具有 200 个日常 API 工具 3 用于自主网页浏览的 Web 代理。 OpenAgents 使普通用户能够通过针对快速响应和常见故障进行优化的 Web 用户界面与代理功能进行交互，同时为开发人员和研究人员提供本地设置的无缝部署体验，为创建创新语言代理和促进现实世界评估奠定基础。

BioPlanner: Automatic Evaluation of LLMs on Protocol Planning in Biology
Authors Odhran O Donoghue, Aleksandar Shtedritski, John Ginger, Ralph Abboud, Ali Essa Ghareeb, Justin Booth, Samuel G Rodriques
自动生成准确的科学实验方案的能力将代表着科学自动化的重要一步。大型语言模型法学硕士在各种任务上都具有令人印象深刻的能力，例如回答问题以及生成连贯的文本和代码。然而，法学硕士可能会遇到多步骤问题和长期规划，而这对于设计科学实验至关重要。此外，评估科学方案的准确性具有挑战性，因为实验可以通过多种不同的方式正确描述，需要专业知识来评估，并且通常不能自动执行。在这里，我们提出了一个用于规划实验方案任务的自动评估框架，并引入了 BioProt 一个具有相应伪代码表示的生物学方案数据集。为了衡量生成科学协议的性能，我们使用 LLM 将自然语言协议转换为伪代码，然后评估 LLM 根据高级描述和可接受的伪代码函数列表重建伪代码的能力。我们在此任务上评估 GPT 3 和 GPT 4 并探索它们的稳健性。我们通过使用检索到的伪代码生成准确的新颖协议来从外部验证文本伪代码表示的实用性，并且我们在生物实验室中成功运行生成的协议。

Llemma: An Open Language Model For Mathematics
Authors Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck
我们提出了 Llemma，一种大型数学语言模型。我们继续在 Proof Pile 2 上对 Code Llama 进行预训练，Proof Pile 2 是科学论文、包含数学的网络数据和数学代码的混合体，产生 Llemma。在 MATH 基准上，Llemma 优于所有已知的开放基础模型，以及基于等参数基础的未发布的 Minerva 模型套件。此外，Llemma 能够进行工具使用和形式定理证明，无需任何进一步的微调。

Data Contamination Through the Lens of Time
Authors Manley Roberts, Himanshu Thakur, Christine Herlihy, Colin White, Samuel Dooley
最近关于大型语言模型法学硕士令人印象深刻的能力的说法通常通过评估公开可用的基准来支持。由于法学硕士在互联网上进行广泛的训练，这种做法引起了数据污染的担忧，即对训练数据中显式或隐式包含的示例进行评估。众所周知，即使进行了训练数据的受控实验、金丝雀字符串或嵌入相似性等部分尝试，数据污染的测量和缓解仍然具有挑战性。在这项工作中，我们通过使用 GPT 模型中训练截止的自然实验来查看随时间推移发布的基准，对 LLM 中的数据污染进行了首次彻底的纵向分析。具体来说，我们考虑了两个代码数学问题解决数据集，Codeforces 和 Project Euler，并发现 LLM 通过率与 GitHub 受欢迎程度和发布日期之间具有统计显着趋势，这提供了污染的有力证据。通过开源我们的数据集、原始结果和评估框架，我们的工作为现代模型中数据污染的严格分析铺平了道路。

Factored Verification: Detecting and Reducing Hallucination in Summaries of Academic Papers
Authors Charlie George, Andreas Stuhlm ller
幻觉甚至困扰着前沿的法学硕士，但它对于总结学术论文来说到底有多糟糕我们评估了因子验证，这是一种简单的自动化方法，用于检测抽象摘要中的幻觉。该方法在 HaluEval 基准的摘要任务中为幻觉检测设置了新的 SotA，达到了 76.2 的准确率。然后，我们使用这种方法来估计语言模型在总结多篇学术论文时出现幻觉的频率，并在 ChatGPT 16k 总结中平均出现 0.62 次幻觉，GPT 4 为 0.84，Claude 2 为 1.55。我们要求模型使用 Factored Critiques 进行自我纠正，

Generating Summaries with Controllable Readability Levels
Authors Leonardo F. R. Ribeiro, Mohit Bansal, Markus Dreyer
可读性是指读者理解书面文本的难易程度。有几个因素会影响可读性水平，例如文本的复杂性、主题内容以及读者的背景知识。根据不同的可读性级别生成摘要对于实现不同受众的知识消费至关重要。然而，当前的文本生成方法缺乏精细的控制，导致文本无法根据读者的熟练程度进行定制。在这项工作中，我们弥补了这一差距并研究了生成指定可读性级别摘要的技术。与以前专注于特定可读性级别（例如，简单摘要）的方法不同，我们生成对其可读性进行细粒度控制的摘要。我们开发了三种文本生成技术来控制可读性：1 基于指令的可读性控制，2 强化学习，以最小化请求的可读性和观察到的可读性之间的差距，3 一种使用前瞻来估计即将到来的解码步骤的可读性的解码方法。

Mastering the Task of Open Information Extraction with Large Language Models and Consistent Reasoning Environment
Authors Ji Qi, Kaixuan Ji, Xiaozhi Wang, Jifan Yu, Kaisheng Zeng, Lei Hou, Juanzi Li, Bin Xu
开放信息提取 OIE 旨在从自然文本中提取客观的结构化知识，这引起了人们越来越多的关注，以人类经验构建专用模型。由于大型语言模型法学硕士在上下文学习能力方面表现出了出色的能力，因此出现了一个问题：是否可以用这种范式有效地解决 OIE 的任务。在本文中，我们探索通过为法学硕士构建适当的推理环境来解决 OIE 问题。具体来说，我们首先提出了一种有效估计法学硕士和测试样本之间句法分布差异的方法，该方法可以作为准备积极论证的相关证据。根据证据，我们引入了一种简单而有效的机制来为法学硕士建立特定任务的推理环境。没有花里胡哨的东西，标准 CaRB 基准测试的实验结果表明，我们的 6 shot 方法优于最先进的监督方法，获得了 55.3 F 1 分数。

Who Are All The Stochastic Parrots Imitating? They Should Tell Us!
Authors Sagi Shaier, Lawrence E. Hunter, Katharina von der Wense
独立语言模型 LM 以及下游任务系统中的 LM 都已被证明会生成实际上不真实的语句。这个问题对于低资源语言尤其严重，因为低资源语言的训练数据稀缺且质量比高资源语言差。在这篇评论文章中，我们认为当前状态下的语言模型在关键环境中永远不会完全值得信赖，并提出了一种可能的新颖策略来处理这个问题，即通过构建语言模型来引用其来源，即将用户指向他们的部分内容。支持其输出的训练数据。我们首先讨论当前哪些 NLP 任务会或不会从此类模型中受益。然后，我们强调这些模型将带来的预期好处，例如语句的快速验证。最后，我们概述了在开发具有引用能力的 LM 过程中需要解决的各个任务。

Emerging Challenges in Personalized Medicine: Assessing Demographic Effects on Biomedical Question Answering Systems
Authors Sagi Shaier, Kevin Bennett, Lawrence Hunter, Katharina von der Wense
最先进的问答 QA 模型表现出各种社会偏见，例如性别或种族方面的偏见，通常可以用训练数据中的类似问题来解释。然而，迄今为止被忽视的是，在生物医学的关键领域，由于患者人口统计数据而引起的模型输出的任何不合理变化都是有问题的，它会导致患者受到不公平的待遇。仅选择答案不取决于种族、性别或性取向的生物医学主题问题，我们提出以下研究问题 RQ1 当提供不相关的人口统计信息时，QA 模型的答案是否会改变 RQ2 RQ1 的答案是否因知识而异基于图 KG 和基于文本的 QA 系统我们发现，不相关的人口统计信息会更改基于 KG 的系统的多达 15 个答案和基于文本的系统的多达 23 个答案，包括影响准确性的变化。

On Position Bias in Summarization with Large Language Models
Authors Mathieu Ravaut, Shafiq Joty, Aixin Sun, Nancy F. Chen
大型语言模型法学硕士擅长零样本抽象摘要任务，提供流畅且中肯的摘要。最近的进步扩展了它们处理长输入上下文的能力，超越了 32k 或更多的令牌限制。然而，在多文档问答领域，语言模型表现出对其输入上下文的利用不均匀。他们倾向于偏爱初始和最终部分，从而导致关于答案在输入中的位置的 U 形性能模式。这种偏见引起了人们的关注，特别是在摘要任务中，其中关键内容可能分散在整个源文档中。本文提出了一项全面的调查，涵盖 10 个数据集、4 个法学硕士和 5 个评估指标，以分析这些模型如何利用其输入进行抽象总结。

RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder for Language Modeling
Authors Jingcheng Deng, Liang Pang, Huawei Shen, Xueqi Cheng
检索增强语言模型有望解决语言模型 LM 中的过时信息和幻觉等问题。然而，当前的研究面临两个主要问题：1.确定要检索哪些信息；2.在生成过程中有效地组合检索到的信息。我们认为，鉴于 LM 模拟未来 token 的性质，有价值的检索信息不仅应该与当前源文本相关，还应该考虑未来的目标文本。此外，我们建议使用从紧凑潜在空间派生的潜在变量进行聚合比利用显式原始文本更有效，后者受到上下文长度的限制并且容易受到噪声的影响。因此，我们引入了 RegaVAE，一种基于变分自动编码器 VAE 构建的检索增强语言模型。它将文本语料库编码到潜在空间中，从源文本和目标文本中捕获当前和未来的信息。此外，我们利用 VAE 来初始化潜在空间，并通过将高斯先验分布扩展为高斯混合分布，采用概率形式的检索生成范式。理论分析为 RegaVAE 提供了可优化的上限。

ViPE: Visualise Pretty-much Everything
Authors Hassan Shahmohammadi, Adhiraj Ghosh, Hendrik P. A. Lensch
比喻和非文字表达深深地融入了人类交流中。可视化这些表达方式可以让我们表达我们的创造性思维，并唤起微妙的情感。另一方面，最近的文本到图像模型（例如稳定扩散）很难描述非文字表达。最近的工作主要通过小规模编译人工注释的数据集来解决这个问题，这不仅需要专业知识，而且效率非常低。为了解决这个问题，我们引入了 ViPE Visualize Pretty Everything。 ViPE 提供了一系列轻量级且强大的语言模型，这些模型已经过大规模歌词集的训练，并具有代表其隐含含义的嘈杂的视觉描述。合成视觉描述由 GPT3.5 生成，既不依赖于人类注释，也不依赖于图像。 ViPE 可以有效地将任意文本片段表达为可视化描述，从而生成有意义且高质量的图像。我们提供了令人信服的证据，证明 ViPE 在综合视觉阐述方面比 GPT3.5 更强大。

One For All & All For One: Bypassing Hyperparameter Tuning with Model Averaging For Cross-Lingual Transfer
Authors Fabian David Schmidt, Ivan Vuli , Goran Glava
多语言语言模型可实现零镜头跨语言迁移 ZS XLT 对大量源语言任务数据进行微调，它们以目标语言执行任务，无需标记实例。 ZS XLT 的有效性取决于语言之间的语言接近度以及语言的预训练数据量。因此，基于源语言验证的模型选择是不可靠的，它会选择目标语言性能次优的模型快照。作为补救措施，一些工作通过广泛调整超参数来优化 ZS XLT，后续工作通常很难复制原始结果。其他工作在更窄的超参数网格上进行搜索，报告的性能明显较低。因此，在这项工作中，我们提出了一种针对 ZS XLT 的无监督评估协议，它将性能最大化与超参数调整解耦。作为广泛超参数调整的稳健且更透明的替代方案，我们建议将不同运行的快照累积平均到单个模型中。我们对较高级别的语义任务 NLI、提取式 QA 和较低级别的标记分类任务 NER 进行了广泛的 ZS XLT 实验，发现基于源语言验证的传统模型选择很快就达到了次优的 ZS XLT 性能。

Semantic Parsing by Large Language Models for Intricate Updating Strategies of Zero-Shot Dialogue State Tracking
Authors Yuxiang Wu, Guanting Dong, Weiran Xu
零样本对话状态跟踪 DST 解决了获取和注释面向任务的对话的挑战，这可能既耗时又昂贵。然而，DST 不仅仅局限于简单的槽填充，还需要有效的更新策略来随着对话的进展跟踪对话状态。在本文中，我们提出了 ParsingDST，一种新的上下文学习 ICL 方法，在零样本 DST 中引入额外的复杂更新策略。我们的方法通过利用强大的大型语言模型 LLM 重新制定 DST 任务，并通过语义解析作为中间状态将原始对话文本翻译为 JSON。我们还设计了一个新颖的框架，其中包含更多模块，以确保文本到 JSON 过程中更新策略的有效性。

NeMo Guardrails: A Toolkit for Controllable and Safe LLM Applications with Programmable Rails
Authors Traian Rebedea, Razvan Dinu, Makesh Sreedhar, Christopher Parisien, Jonathan Cohen
NeMo Guardrails 是一个开源工具包，可轻松向基于 LLM 的对话系统添加可编程护栏。护栏或简称栏杆是控制法学硕士输出的一种特定方式，例如不谈论被认为有害的主题、遵循预定义的对话路径、使用特定的语言风格等等。有多种机制允许 LLM 提供者和开发人员添加在训练时嵌入到特定模型中的护栏，例如使用模型对齐。不同的是，NeMo Guardrails 使用受对话管理启发的运行时，允许开发人员向 LLM 应用程序添加可编程轨道，这些轨道是用户定义的、独立于底层 LLM 且可解释的。

Metric Ensembles For Hallucination Detection
Authors Grant C. Forbes, Parth Katlana, Zeydy Ortiz
抽象文本摘要最近引起了越来越多的兴趣，部分原因是大型语言模型法学硕士的激增。与抽象摘要的生成相关的最紧迫的问题之一是需要减少幻觉，即正在摘要的文档中未包含的信息，并且这些信息可能完全不正确。由于这种需要，人们提出了一系列评估与所总结文本的一致性的指标。我们特别检查了一套无监督指标以确保摘要一致性，并测量它们之间的相关性以及它们与 wiki bio gpt3 幻觉数据集中的人类评估分数的相关性。然后，我们将这些评估与由这些指标的简单线性集合构成的模型进行比较。我们发现基于法学硕士的方法优于其他幻觉检测的无监督指标。我们还发现，只要集成中的指标具有足够相似且不相关的错误率，集成方法就可以进一步提高这些分数。

UNO-DST: Leveraging Unlabelled Data in Zero-Shot Dialogue State Tracking
Authors Chuang Li, Yan Zhang, Min Yen Kan, Haizhou Li
以前的零样本对话状态跟踪DST方法仅应用迁移学习，而忽略目标域中的未标记数据。我们通过联合和自训练方法利用此类未标记数据，将零样本 DST 转换为少样本 DST。我们的方法结合了辅助任务，这些辅助任务生成槽类型作为主要任务的反向提示，在联合训练期间创建槽值。这两个任务之间的循环一致性使得能够在未知目标域中生成和选择高质量样本，以进行后续的微调。这种方法还有助于自动创建标签，从而优化 DST 模型的训练和微调。

Type-aware Decoding via Explicitly Aggregating Event Information for Document-level Event Extraction
Authors Gang Zhao, Yidong Shi, Shudong Lu, Xinjie Yang, Guanting Dong, Jian Xu, Xiaocheng Gong, Si Li
文档级事件提取 DEE 面临两个主要挑战：分散和多事件。尽管以前的方法试图解决这些挑战，但它们在事件检测过程中忽略了事件无关句子的干扰，并在论元提取过程中忽略了不同事件角色的相互干扰。因此，本文提出了一种新的基于模式的显式聚合SEA模型来解决这些局限性。 SEA 将事件信息聚合为事件类型和角色表示，从而能够根据特定类型感知表示对事件记录进行解码。通过根据事件类型表示检测每个事件，SEA 减轻了事件无关信息造成的干扰。此外，SEA 根据每个角色的角色感知表征提取参数，减少不同角色之间的相互干扰。

xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection
Authors Nuno M. Guerreiro, Ricardo Rei, Daan van Stigt, Luisa Coheur, Pierre Colombo, Andr F.T. Martins
广泛使用的机器翻译评估学习指标（例如 COMET 和 BLEURT）通过提供单个句子级别的分数来评估翻译假设的质量。因此，它们对翻译错误的了解很少，例如错误是什么及其严重程度。另一方面，生成式大语言模型法学硕士正在扩大采用更细粒度的评估策略，试图对翻译错误进行详细说明和分类。在这项工作中，我们引入了 xCOMET，这是一种开源学习指标，旨在弥合这些方法之间的差距。 xCOMET 集成了句子级评估和错误跨度检测功能，在所有类型的评估句子级、系统级和错误跨度检测中展现了最先进的性能。此外，它同时突出显示错误范围并对其进行分类，从而丰富了质量评估。

DemoSG: Demonstration-enhanced Schema-guided Generation for Low-resource Event Extraction
Authors Gang Zhao, Xiaocheng Gong, Xinjie Yang, Guanting Dong, Shudong Lu, Si Li
目前大多数事件提取EE方法都专注于高资源场景，需要大量的标注数据，很难应用于低资源领域。为了在有限的资源下更有效地解决EE问题，我们提出了演示增强模式引导的Generation DemoSG模型，该模型从两个方面使低资源EE受益首先，我们提出了基于演示的EE学习范式，以充分利用带注释的数据，将它们转化为演示来说明提取过程并帮助模型有效学习。其次，我们将 EE 制定为由基于模式的提示引导的自然语言生成任务，从而利用标签语义并促进低资源场景中的知识转移。我们在域内和域适应低资源设置下在三个数据集上进行了广泛的实验，并研究了 DemoSG 的鲁棒性。

G-SPEED: General SParse Efficient Editing MoDel
Authors Haoke Zhang, Yue Wang, Juntao Li, Xiabing Zhou, Min Zhang
大型语言模型法学硕士在理解、生成和操作语言方面表现出了令人难以置信的能力。通过人模交互，法学硕士可以自动理解人类发出的指令并输出预期的内容，从而可以显着提高工作效率。在各种类型的现实世界需求中，以编辑为导向的任务占据了相当大的比例，它涉及一个交互过程，需要不断完善现有文本以满足特定标准。由于多轮人体模型交互的需要以及复杂编辑任务的产生，迫切需要高效的通用编辑模型。在本文中，我们提出了 underline textbf G eneral underline textbf SP ass underline textbf E fficient underline textbf E diting Mo underline textbf D el textbf G SPEED ，它可以通过单个模型满足多样化的编辑需求，同时保持较低的计算成本。具体来说，我们首先提出一种新颖的无监督文本编辑数据聚类算法来处理数据稀缺问题。随后，我们引入了稀疏编辑模型架构，以减轻小语言模型固有的有限学习能力。实验结果表明，具有508M参数的G SPEED可以超越具有175B参数的LLM。

Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis
Authors Kai Chen, Chunwei Wang, Kuo Yang, Jianhua Han, Lanqing Hong, Fei Mi, Hang Xu, Zhengying Liu, Wenyong Huang, Zhenguo Li, Dit Yan Yeung, Lifeng Shang, Xin Jiang, Qun Liu
大语言模型法学硕士的快速发展既带来了机遇也带来了挑战，特别是在无意中产生有害和有毒反应方面。虽然传统的对齐方法努力引导法学硕士取得理想的表现并保护他们免受恶意内容的影响，但本研究提出了一种植根于错误分析的新颖对齐策略，通过有目的地将法学硕士暴露于有缺陷的输出，然后进行彻底的评估，以通过自然的方式充分理解内部原因。语言分析。因此，有毒反应可以转化为用于模型对齐的指令调整语料库，法学硕士不仅可以阻止产生有缺陷的反应，还可以训练自我批评，利用其区分有毒内容的先天能力。

Stance Detection with Collaborative Role-Infused LLM-Based Agents
Authors Xiaochong Lan, Chen Gao, Depeng Jin, Yong Li
立场检测自动检测文本中针对目标的立场，这对于网络和社交媒体研究中的内容分析至关重要。尽管法学硕士的能力很有前景，但在直接应用于姿态检测时会遇到挑战。首先，立场检测需要多方面的知识，从破译事件相关术语到理解社交媒体平台中的表达风格。其次，立场检测需要高级推理来推断作者隐含的观点，因为立场通常巧妙地嵌入文本中，而不是公开地陈述在文本中。为了应对这些挑战，我们设计了一个三阶段框架 COLA，是基于 LLM 的协作角色注入的代理，其中 LLM 被指定为不同的角色，从而创建一个每个角色都有独特贡献的协作系统。最初，在多维文本分析阶段，我们将法学硕士配置为语言专家、领域专家和社交媒体资深人士，对文本进行多方面的分析，从而克服了第一个挑战。接下来，在推理增强辩论阶段，对于每个潜在的立场，我们指定一个特定的基于LLM的代理来倡导它，指导LLM检测文本特征和立场之间的逻辑联系，解决第二个挑战。最后，在立场结论阶段，最终决策者代理巩固先前的见解来确定立场。我们的方法避免了额外的注释数据和模型训练，并且高度可用。我们在多个数据集上实现了最先进的性能。消融研究验证了每个设计角色在处理姿态检测方面的有效性。进一步的实验证明了我们方法的可解释性和多功能性。

Text Summarization Using Large Language Models: A Comparative Study of MPT-7b-instruct, Falcon-7b-instruct, and OpenAI Chat-GPT Models
Authors Lochan Basyal, Mihir Sanghvi
文本摘要是一项关键的自然语言处理 NLP 任务，其应用范围从信息检索到内容生成。利用大型语言模型法学硕士在增强摘要技术方面表现出了非凡的前景。本文开始使用多种 LLM 来探索文本摘要，包括 MPT 7b 指令、falcon 7b 指令和 OpenAI ChatGPT 文本 davinci 003 模型。该实验使用不同的超参数进行，并使用广泛接受的指标评估生成的摘要，例如双语评估学生 BLEU 分数、面向回忆的学生 Gisting 评估 ROUGE 分数和来自 Transformers BERT 分数的双向编码器表示。根据实验，文本达芬奇003的表现优于其他文本。这项调查涉及两个不同的数据集：CNN Daily Mail 和 XSum。其主要目标是全面了解大型语言模型法学硕士应用于不同数据集时的性能。对这些模型有效性的评估为 NLP 领域的研究人员和从业者提供了宝贵的见解。

MechGPT, a language-based strategy for mechanics and materials modeling that connects knowledge across scales, disciplines and modalities
Authors Markus J. Buehler
几个世纪以来，研究人员一直在寻找连接不同领域知识的方法。虽然早期学者伽利略、达芬奇等都是跨领域的专家，但后来才开始出现专业化。随着人工智能的出现，我们现在可以探索跨领域（例如力学生物学）或不同领域（例如失效力学艺术）的关系。为了实现这一目标，我们使用了经过微调的大型语言模型 LLM，此处用于获取多尺度材料失效的知识子集。该方法包括使用通用法学硕士从原始来源中提取问题答案对，然后进行法学硕士微调。由此产生的 MechGPT LLM 基础模型用于一系列计算实验，以探索其知识检索、各种语言任务、假设生成以及跨不同领域连接知识的能力。虽然该模型具有一定的能力来回忆训练中的知识，但我们发现法学硕士对于通过本体知识图提取结构见解特别有用。这些可解释的图形结构提供了解释性见解、新研究问题的框架以及知识的视觉表示，这些知识也可用于检索增强生成。讨论了 MechGPT 的三个版本，其参数大小从 130 亿到 700 亿不等，上下文长度达到超过 10,000 个 token。

Exploiting User Comments for Early Detection of Fake News Prior to Users' Commenting
Authors Qiong Nan, Qiang Sheng, Juan Cao, Yongchun Zhu, Danding Wang, Guang Yang, Jintao Li, Kai Shu
准确性和及时性是检测社交媒体上虚假新闻的关键因素。然而，大多数现有方法遇到了准确性、时效性困境，仅内容方法保证了及时性，但由于可用信息有限而表现不佳，而基于社交上下文的方法通常表现更好，但由于社交上下文积累的需要，不可避免地导致延迟。为了打破这种困境，一个可行但未经充分研究的解决方案是利用社会背景，例如历史新闻的评论来训练检测模型，并将其应用于没有社会背景的新出现的新闻。这要求模型 1 从社会背景中充分学习有用的知识，2 与社会背景可用或不可用的情况良好兼容。为了实现这一目标，我们建议从历史新闻评论中吸收和参数化有用的知识，然后将其注入到仅内容检测模型中。具体来说，我们设计了评论辅助假新闻检测方法 CAS FEND，该方法在训练期间将有用的知识从评论感知教师模型转移到仅内容的学生模型。学生模型进一步用于检测新出现的假新闻。

Can Word Sense Distribution Detect Semantic Changes of Words?
Authors Xiaohang Tang, Yi Zhou, Taichi Aida, Procheta Sen, Danushka Bollegala
对于必须做出时间敏感预测的各种 NLP 应用程序来说，单词的语义变化检测 SCD 是一项重要任务。随着时间的推移，一些词语以新颖的方式使用来表达新的含义，而这些新的含义将自身确立为现有词语的新含义。另一方面，词义消歧 WSD 方法将歧义词与词义 id 相关联，具体取决于它们出现的上下文。考虑到 WSD 和 SCD 之间的这种关系，我们通过比较每个语料库中该单词的含义分布，探索预测目标单词在不同时间步骤收集的两个语料库之间其含义是否发生变化的可能性。为此，我们使用预训练的静态语义嵌入来自动用语义 id 注释语料库中目标单词的每次出现。接下来，我们计算给定语料库中目标词的语义 ID 的分布。最后，我们使用不同的散度或距离度量来量化两个给定语料库中目标词的语义变化。

$\textit{Swap and Predict}$ -- Predicting the Semantic Changes in Words across Corpora by Context Swapping
Authors Taichi Aida, Danushka Bollegala
词语的含义随着时间和跨领域的变化而变化。对于必须做出时间敏感预测的各种 NLP 应用程序来说，检测单词的语义变化是一项重要任务。我们考虑预测给定目标词 w 在两个不同文本语料库 mathcal C 1 和 mathcal C 2 之间是否改变其含义的问题。为此，我们提出了基于 textit 交换的语义变化检测 SSCD，这是一种无监督方法，可在发生 w 的 mathcal C 1 和 mathcal C 2 之间随机交换上下文。然后，我们查看从预训练掩码语言模型 MLM 获得的 w 的上下文词嵌入的分布，表示 w 在 mathcal C 1 和 mathcal C 2 中出现上下文中的含义。直观上，如果 w 的含义在 mathcal C 1 和 mathcal C 2 之间没有改变，我们预计 w 的上下文词嵌入的分布在此随机交换过程之前和之后保持相同。尽管它很简单，但我们证明，即使使用预训练的 MLM 而不进行任何微调，我们提出的上下文交换方法也可以准确预测英语、德语、瑞典语和拉丁语四种语言中的单词的语义变化，并且跨越 50 多年的不同时间跨度5年。此外，与英语语义变化预测任务的强大基线相比，我们的方法实现了显着的性能改进。

Towards a Better Understanding of Variations in Zero-Shot Neural Machine Translation Performance
Authors Shaomu Tan, Christof Monz
多语言神经机器翻译 MNMT 促进了知识共享，但经常遭受零样本 ZS 翻译质量较差的困扰。虽然之前的工作已经探讨了整体低 ZS 性能的原因，但我们的工作引入了 ZS 性能存在高变化的新视角。这表明 MNMT 并非一律表现出较差的 ZS 能力，相反，某些平移方向会产生合理的结果。通过涉及 40 种语言的 1,560 个语言方向的系统实验，我们确定了导致 ZS NMT 性能差异较大的三个关键因素：1 目标侧翻译能力；2 词汇重叠；3 语言属性。我们的研究结果强调，目标端翻译质量是最有影响力的因素，词汇重叠持续影响 ZS 性能。此外，语言特性（例如语言家族和书写系统）也发挥着作用，特别是对于较小的模型。此外，我们认为脱靶问题是 ZS 性能不足的症状，强调零射击翻译挑战超出了解决脱靶问题的范围。

Privacy in Large Language Models: Attacks, Defenses and Future Directions
Authors Haoran Li, Yulin Chen, Jinglong Luo, Yan Kang, Xiaojin Zhang, Qi Hu, Chunkit Chan, Yangqiu Song
大型语言模型法学硕士的进步显着增强了有效处理各种下游 NLP 任务并将这些任务统一到生成管道中的能力。一方面，经过海量文本数据训练的强大语言模型为模型和用户带来了无与伦比的可访问性和可用性。另一方面，对这些模型的无限制访问也可能带来潜在的恶意和无意的隐私风险。尽管不断努力解决与法学硕士相关的安全和隐私问题，但问题仍未解决。在本文中，我们对当前针对 LLM 的隐私攻击进行了全面分析，并根据对手的假设能力对其进行分类，以揭示 LLM 中存在的潜在漏洞。然后，我们详细概述了为应对这些隐私攻击而开发的重要防御策略。除了现有的工作之外，我们还确定了随着法学硕士的发展即将出现的隐私问题。

Contextual Data Augmentation for Task-Oriented Dialog Systems
Authors Dustin Axman, Avik Ray, Shubham Garg, Jing Huang
用于训练面向任务的对话系统的带注释对话的收集一直是改进当前模型的关键瓶颈之一。虽然对话响应生成已在代理端得到广泛研究，但尚不清楚是否可以使用类似的生成模型来生成真实对话系统在实践中遇到的各种且通常是意外的用户输入。现有的数据增强技术（例如释义生成）没有考虑对话上下文。在本文中，我们开发了一种新颖的对话增强模型，该模型可以根据完整的对话上下文生成用户回合。此外，通过新的语言模型提示设计和输出重新排序，从我们的模型生成的对话可以直接用于训练下游对话系统。

Cross-Lingual Consistency of Factual Knowledge in Multilingual Language Models
Authors Jirui Qi, Raquel Fern ndez, Arianna Bisazza
多语言大规模预训练语言模型 PLM 已被证明可以存储大量事实知识，但不同语言之间存在很大差异。为了确保不同语言背景的用户从同一模型中获得一致的反馈，我们研究了各种多语言PLM中事实知识的跨语言一致性CLC。为此，我们提出了一种基于排名的一致性 RankC 指标，以独立于准确性来评估跨语言的知识一致性。使用这个指标，我们在模型级别和语言对级别对 CLC 的决定因素进行了深入分析。除其他结果外，我们发现增加模型大小会导致大多数语言中事实探测的准确性更高，但不会提高跨语言一致性。最后，我们对通过模型编辑在 PLM 中插入新事实关联时的 CLC 进行案例研究。

Tabular Representation, Noisy Operators, and Impacts on Table Structure Understanding Tasks in LLMs
Authors Ananya Singha, Jos Cambronero, Sumit Gulwani, Vu Le, Chris Parnin
大型语言模型法学硕士越来越多地应用于上下文学习中的表格任务。表格的提示表示可能会影响法学硕士处理表格的能力。受先前工作的启发，我们生成了一系列自我监督的结构任务，例如导航到单元格和行转置表格并评估使用 8 种格式时的性能差异。

Untying the Reversal Curse via Bidirectional Language Model Editing
Authors Jun Yu Ma, Jia Chen Gu, Zhen Hua Ling, Quan Liu, Cong Liu
最近的研究表明，大型语言模型法学硕士在其参数内存储了大量事实知识。但现有的法学硕士很容易因为错误或过时的知识而产生幻觉。由于法学硕士的再培训是资源密集型的，因此人们对模型编辑的概念越来越感兴趣。尽管出现了基准和方法，但这些单向的编辑和评估未能探索逆转诅咒。直观上，如果将法国首都编辑为模型中的反事实伦敦，那么它应该能够自然地推理并回忆起相反的事实，即伦敦是法国而不是英格兰的首都。在本文中，我们研究双向语言模型编辑，旨在提供严格的模型编辑评估，以评估编辑后的法学硕士是否可以双向回忆编辑知识。引入了新的可逆性评估指标，并构建了知识编辑双向评估BAKE基准来评估编辑模型在编辑相反方向上回忆知识的可逆性。我们惊讶地发现，虽然当前的编辑方法和法学硕士可以在编辑方向上有效地回忆编辑事实，但在反向评估时却存在严重缺陷。为了减轻逆转诅咒，提出了一种名为双向可逆关系建模 BIRD 的方法。设计了一组编辑目标，将主体和客体之间的双向关系合并到更新的模型权重中。

Interpreting and Exploiting Functional Specialization in Multi-Head Attention under Multi-task Learning
Authors Chong Li, Shaonan Wang, Yunhao Zhang, Jiajun Zhang, Chengqing Zong
基于 Transformer 的模型，尽管在几个下游任务上实现了超人的性能，但通常被视为黑匣子并作为一个整体使用。目前还不清楚他们学到了什么机制，特别是他们的核心模块多头注意力。受人脑功能专业化有助于有效处理多个任务的启发，这项工作试图弄清楚多头注意力模块是否会在多任务训练下进化出类似的功能分离。如果是，这种机制能否进一步提高模型性能为了研究这些问题，我们引入了一种解释方法来量化多头注意力的功能专业化程度。我们进一步提出了一种简单的多任务训练方法，以增加功能专业化并减轻多任务学习中的负面信息传递。七个预先训练的 Transformer 模型的实验结果表明，多头注意力在多任务训练后确实会出现功能专业化现象，这是受任务相似性的影响。

Investigating Bias in Multilingual Language Models: Cross-Lingual Transfer of Debiasing Techniques
Authors Manon Reusens, Philipp Borchert, Margot Mieskes, Jochen De Weerdt, Bart Baesens
本文研究了多语言模型中不同语言之间去偏差技术的可迁移性。我们研究了这些技术在英语、法语、德语和荷兰语中的适用性。使用多语言 BERT mBERT，我们证明了去偏技术的跨语言迁移不仅可行，而且产生了有希望的结果。令人惊讶的是，我们的研究结果表明，将这些技术应用于非英语语言时没有性能劣势。使用 CrowS Pairs 数据集的翻译，我们的分析将 SentenceDebias 确定为跨不同语言的最佳技术，将 mBERT 的偏差平均减少 13 。我们还发现，对于分析中包含的语言，特别是在资源较低的语言中，经过额外预训练的去偏技术表现出增强的跨语言有效性。

Key-phrase boosted unsupervised summary generation for FinTech organization
Authors Aadit Deshpande, Shreya Goyal, Prateek Nagwanshi, Avinash Tripathy
随着社交媒体的最新发展，利用NLP技术进行社交媒体数据分析已成为一个新兴的研究方向。商业组织尤其可以从社交媒体话语分析中受益，提供有关消费者行为的外部视角。一些 NLP 应用程序（例如意图检测、情感分类、文本摘要）可以帮助金融科技组织利用社交媒体语言数据找到有用的外部见解，并可以进一步用于下游 NLP 任务。特别是，突出用户意图和情绪的摘要对于这些组织获得外部视角非常有用。这种外部视角可以帮助组织更好地管理其产品、优惠、促销活动等。然而，某些挑战（例如缺乏标记的特定领域数据集）阻碍了金融科技领域中这些任务的进一步探索。为了克服这些挑战，我们使用动作对象对意图短语，设计了一种基于社交媒体数据的无监督短语摘要生成。我们在不同摘要中提供的各种 Reddit 讨论线程的上下文信息的方向上，与其他基于关键词的摘要生成方法一起评估了所提出的方法。我们引入了某些上下文度量，例如唯一单词、动作对象对和名词块的数量，以评估从这些基于短语的摘要中的源文本检索的上下文信息。我们证明，我们的方法明显优于这些指标的基线，从而提供了其功效的定性和定量测量。

Multi-Stage Pre-training Enhanced by ChatGPT for Multi-Scenario Multi-Domain Dialogue Summarization
Authors Weixiao Zhou, Gengyao Li, Xianfu Cheng, Xinnian Liang, Junnan Zhu, Feifei Zhai, Zhoujun Li
对话摘要涉及广泛的场景和领域。然而，现有方法通常仅适用于特定场景或领域。在本研究中，我们提出了一种专门为多场景多领域对话摘要设计的新的预训练模型。它采用多阶段预训练策略来缩小预训练目标和微调目标之间的差距。具体来说，我们首先使用大规模多场景多域对话数据进行领域感知预训练，以增强预训练模型的适应性。然后，我们使用 ChatGPT 注释的大规模多场景多领域对话摘要并行数据进行面向任务的预训练，以增强预训练模型的对话摘要能力。

Generative Calibration for In-context Learning
Authors Zhongtao Jiang, Yuanzhe Zhang, Cao Liu, Jun Zhao, Kang Liu
作为大型语言模型法学硕士最令人兴奋的功能之一，上下文学习是喜忧参半。虽然它允许用户仅使用几个训练示例快速构建任务求解器原型，但性能通常对提示的各种配置（例如训练示例的选择或顺序）敏感。在本文中，我们首次从理论上和实证上发现，这种悖论主要是由于上下文模型向数据分布的标签转移所致，其中LLM在具有良好的标签条件p x y 的同时移动了标签边际 p y 。有了这种理解，我们可以通过调整标签边际来简单地校准上下文预测分布，标签边际是通过上下文模型上的蒙特卡罗采样估计的，即LLM的生成。我们将我们的方法称为生成校准。我们对 12 个文本分类任务和 12 个 LLM（从 774M 扩展到 33B）进行了详尽的实验，通常发现所提出的方法大大且一致地优于 ICL 以及最先进的校准方法，在宏 F1 中高达 27 个绝对值。

Enhancing Interpretability using Human Similarity Judgements to Prune Word Embeddings
Authors Natalia Flechas Manrique, Wanqian Bao, Aurelie Herbelot, Uri Hasson
NLP 中的可解释性方法旨在提供对特定系统架构底层语义的洞察。专注于词嵌入，我们提出了一种监督学习方法，对于给定领域（例如体育、职业），识别模型特征的子集，这些特征可以极大地改善人类相似性判断的预测。我们展示了该方法对于 8 个独立的语义域仅保留 20 40 个原始嵌入，并且它保留了跨域的不同特征集。然后，我们提出两种解释保留特征语义的方法。第一个获得保留嵌入的第一主成分上的域词共下义词的分数，并提取与共下义词共现的术语跟踪这些分数配置文件。这项分析揭示了人类是有区别的，例如体育运动基于其性别包容性和国际性。第二种方法使用保留集作为探测任务中的变量，该任务沿着 535 个单词的数据集的 65 个语义注释维度预测值。为职业保留的特征最适合预测认知、情感和社会维度，而为水果或蔬菜保留的特征最能预测味觉维度。

Prediction of Arabic Legal Rulings using Large Language Models
Authors Adel Ammar, Anis Koubaa, Bilel Benjdira, Omar Najar, Serry Sibaee
在复杂的法律研究领域，对法院判决的分析是司法系统有效运作的基石。预测法庭结果的能力可以帮助法官做出决策，并为律师提供宝贵的见解，从而增强他们处理案件的战略方法。尽管阿拉伯法庭分析具有重要意义，但其领域仍有待探索。本文开创性地利用当前最先进的大型语言模型的先进功能，对 10,813 个商业法院真实案件的数据集进行阿拉伯法院判决的全面预测分析。通过系统探索，我们评估了三种流行的基础模型 LLaMA 7b、JAIS 13b 和 GPT3.5 Turbo 以及三种训练范例零样本、单样本和定制微调。此外，我们评估总结和/或翻译原始阿拉伯语输入文本的好处。这导致了一系列 14 种模型变体，我们为此提供了具有一系列不同指标的精细性能评估，包括人类评估、GPT 评估、ROUGE 和 BLEU 分数。我们表明，LLaMA 模型的所有变体都产生有限的性能，而基于 GPT 3.5 的模型大幅优于所有其他模型，超过以阿拉伯语为中心的专用 JAIS 模型的平均分数 50 。此外，我们表明，除了人类评估之外，所有分数对于评估大型语言模型在法院判决预测方面的性能都是不一致且不可靠的。

Repetition In Repetition Out: Towards Understanding Neural Text Degeneration from the Data Perspective
Authors Huayang Li, Tian Lan, Zihao Fu, Deng Cai, Lemao Liu, Nigel Collier, Taro Watanabe, Yixuan Su
关于神经文本退化问题有许多不同的假设，即生成重复和乏味的循环，这使得这个问题既有趣又令人困惑。在这项工作中，我们的目标是通过从数据角度提出简单而基本的解释来增进我们的理解。我们的初步调查揭示了退化问题与训练数据中重复的存在之间存在很强的相关性。随后的实验还表明，通过选择性地放弃对训练数据中重复单词的关注，可以显着减少退化。此外，我们的实证分析表明，先前从不同角度（例如高流入词、似然目标和自我强化现象）解决退化问题的研究可以通过一种简单的解释来解释。也就是说，惩罚训练数据中的重复是其有效性的常见且基本的因素。

VIBE: Topic-Driven Temporal Adaptation for Twitter Classification
Authors Yuji Zhang, Jing Li, Wenjie Li
语言特征在现实世界的社交媒体中不断发展，导致动态文本分类的性能不断恶化。为了应对这一挑战，我们研究时间适应，即在未来测试根据过去数据训练的模型。大多数先前的工作都集中在持续的预训练或知识更新上，这可能会损害他们在嘈杂的社交媒体数据上的表现。为了解决这个问题，我们通过对潜在主题演化建模来反映特征变化，并提出了一种新颖的模型：VIBE Variational Information Bottleneck for Evolutions。具体来说，我们首先使用两个信息瓶颈 IB 正则化器来区分过去和未来的主题。然后，通过带有时间戳和类标签预测的多任务训练，区分主题作为自适应特征。在自适应学习中，VIBE 利用从训练数据时间之后创建的在线流中检索到的未标记数据。

Battle of the Large Language Models: Dolly vs LLaMA vs Vicuna vs Guanaco vs Bard vs ChatGPT -- A Text-to-SQL Parsing Comparison
Authors Shuo Sun, Yuchen Zhang, Jiahuan Yan, Yuze Gao, Donovan Ong, Bin Chen, Jian Su
ChatGPT 的成功引发了一场人工智能竞赛，研究人员努力开发新的大型语言模型法学硕士，以匹配或超越商业模型的语言理解和生成能力。最近，出现了许多模型，声称通过各种指令调优方法，性能接近 GPT 3.5 或 GPT 4。作为文本到 SQL 解析的实践者，我们感谢他们对开源研究的宝贵贡献。然而，重要的是要以审视的态度对待这些主张，并确定这些模型的实际有效性。因此，我们将六种流行的大型语言模型相互比较，在九个基准数据集上系统地评估它们的文本到 SQL 解析能力，并采用五种不同的提示策略，涵盖零样本和少样本场景。

Continual Generalized Intent Discovery: Marching Towards Dynamic and Open-world Intent Recognition
Authors Xiaoshuai Song, Yutao Mou, Keqing He, Yueyan Qiu, Pei Wang, Weiran Xu
在实际的对话系统中，用户可能会输入域外的OOD查询。广义意图发现 GID 任务旨在从 OOD 查询中发现 OOD 意图并将其扩展到域内 IND 分类器。然而，GID只考虑了OOD学习的一个阶段，需要利用之前所有阶段的数据进行联合训练，这限制了其在现实中的广泛应用。在本文中，我们介绍了一个新任务，持续广义意图发现CGID，旨在从动态OOD数据流中持续自动发现OOD意图，然后将它们增量地添加到几乎没有任何先前数据的分类器中，从而迈向动态意图识别在一个开放的世界中。接下来，我们提出了一种名为“原型引导学习与重放和蒸馏 PLRD for CGID”的方法，该方法通过类原型引导新意图发现，并通过数据重放和特征蒸馏来平衡新旧意图。

TRIGO: Benchmarking Formal Mathematical Proof Reduction for Generative Language Models
Authors Jing Xiong, Jianhao Shen, Ye Yuan, Haiming Wang, Yichun Yin, Zhengying Liu, Lin Li, Zhijiang Guo, Qingxing Cao, Yinya Huang, Chuanyang Zheng, Xiaodan Liang, Ming Zhang, Qun Liu
自动定理证明 ATP 已成为探索最近成功的生成语言模型的推理能力的一个有吸引力的领域。然而，当前的ATP基准测试主要集中在符号推理上，而很少涉及对复杂数字组合推理的理解。在这项工作中，我们提出了 TRIGO，一个 ATP 基准，它不仅需要一个模型通过逐步证明来简化三角表达式，而且还评估生成 LM 对公式的推理能力及其操作、分组和因子数项的能力。我们从网络上收集三角表达式及其简化形式，手动注释简化过程，并将其翻译成精益形式语言系统。然后，我们从带注释的样本中自动生成其他示例以扩展数据集。此外，我们开发了一个基于 Lean Gym 的自动生成器，用于创建不同难度和分布的数据集分割，以便彻底分析模型的泛化能力。我们广泛的实验表明，我们提出的 TRIGO 对包括 GPT 4 在内的高级生成 LM 提出了新的挑战，GPT 4 是在大量开源形式定理证明语言数据上进行预训练的，并提供了一种新工具来研究生成 LM 在以下方面的能力：

Large Language Models Meet Open-World Intent Discovery and Recognition: An Evaluation of ChatGPT
Authors Xiaoshuai Song, Keqing He, Pei Wang, Guanting Dong, Yutao Mou, Jingang Wang, Yunsen Xian, Xunliang Cai, Weiran Xu
域外 OOD 意图发现和广义意图发现 GID 的任务旨在将封闭意图分类器扩展到开放世界意图集，这对于面向任务的对话 TOD 系统至关重要。以前的方法通过微调判别模型来解决这些问题。最近，虽然一些研究一直在探索以ChatGPT为代表的大型语言模型LLM在各种下游任务中的应用，但ChatGPT发现并逐步扩展OOD意图的能力仍不清楚。在本文中，我们综合评估了 ChatGPT 在 OOD 意图发现和 GID 方面的表现，然后概述了 ChatGPT 的优缺点。总体而言，ChatGPT 在零样本设置下表现出一致的优势，但与微调模型相比仍然处于劣势。更深入地说，通过一系列的分析实验，我们总结和讨论了法学硕士面临的挑战，包括聚类、特定领域理解以及上下文学习场景中的跨领域。

DemoNSF: A Multi-task Demonstration-based Generative Framework for Noisy Slot Filling Task
Authors Guanting Dong, Tingfeng Hui, Zhuoma GongQue, Jinxu Zhao, Daichi Guo, Gang Zhao, Keqing He, Weiran Xu
最近，基于提示的生成框架在序列标记任务中表现出了令人印象深刻的能力。然而，在实际的对话场景中，仅仅依靠简单的模板和传统的语料库对这些方法在泛化未知的输入扰动方面提出了挑战。为了解决这一差距，我们提出了一种基于多任务演示的噪声槽填充生成框架，名为 DemoNSF。具体来说，我们引入了三个噪声辅助任务，即噪声恢复 NR 、随机掩模 RM 和混合判别 HD ，以隐式捕获不同粒度的输入扰动的语义结构信息。在下游的主要任务中，我们为生成框架设计了一个噪声演示构建策略，该策略明确地结合了任务特定信息和训练和推理过程中的扰动分布。两个基准测试的实验表明，DemoNSF 优于所有基线方法并实现了很强的泛化性。进一步的分析为生成框架的实际应用提供了实证指导。

Character-LLM: A Trainable Agent for Role-Playing
Authors Yunfan Shao, Linyang Li, Junqi Dai, Xipeng Qiu
大型语言模型法学硕士可以用作模拟人类行为的代理，因为它具有理解人类指令并提供高质量生成文本的强大能力。这种能力促使我们想知道法学硕士是否可以以比简单人类行为更高的形式模拟人。因此，我们的目标是根据特定人的个人资料、经验和情绪状态来训练代理，而不是使用有限的提示来指导 ChatGPT API。在这项工作中，我们引入了角色法学硕士，教授法学硕士扮演特定的人物，如贝多芬、克利奥帕特拉女王、凯撒大帝等。我们的方法侧重于将个人资料编辑为某个角色的经历，并训练模型将这些经历作为个人拟像。。为了评估我们方法的有效性，我们建立了一个测试平台，采访训练有素的智能体，并评估智能体是否记住了他们的性格和经历。

CLIN: A Continually Learning Language Agent for Rapid Task Adaptation and Generalization
Authors Bodhisattwa Prasad Majumder, Bhavana Dalvi Mishra, Peter Jansen, Oyvind Tafjord, Niket Tandon, Li Zhang, Chris Callison Burch, Peter Clark
语言代理已经表现出一定的与外部环境（例如 ScienceWorld 等虚拟世界）交互的能力，以执行复杂的任务（例如种植植物），而无需强化学习的启动成本。然而，尽管具有零射击能力，但迄今为止，这些智能体并没有随着时间的推移不断改进，超越特定任务的性能改进。在这里，我们介绍 CLIN，这是第一个实现这一目标的基于语言的代理，因此它可以在多次试验中不断改进，包括当环境和任务发生变化时，并且不需要参数更新。我们的方法是使用以因果抽象为中心的持久、动态、文本记忆，而不是在每次试验后定期更新的一般有用提示，以便代理逐渐学习新试验的有用知识。在 ScienceWorld 基准测试中，CLIN 能够在相同任务和环境的重复试验中不断改进，比 Reflexion 等最先进的反射语言代理高出了 23 个绝对点。 CLIN 还可以将其学习转移到新环境或新任务，将新任务的零样本性能提高 4 点 13 ，并且可以通过持续的内存更新进一步提高性能，将新任务的性能额外提高 17 点 7 。

Learning to Rank Context for Named Entity Recognition Using a Synthetic Dataset
Authors Arthur Amalvy LIA , Vincent Labatut LIA , Richard Dufour LS2N quipe TALN
虽然最近基于预训练 Transformer 的模型可以非常准确地执行命名实体识别 NER，但当应用于整篇小说等长文档时，其有限的范围仍然是一个问题。为了缓解这个问题，一个解决方案是在文档级别检索相关上下文。不幸的是，缺乏对此类任务的监督意味着人们不得不接受无监督的方法。相反，我们建议使用 Alpaca（一种指令调整的大型语言模型 LLM）生成综合上下文检索训练数据集。使用此数据集，我们训练基于 BERT 模型的神经上下文检索器，该模型能够为 NER 找到相关上下文。

End-to-end Multichannel Speaker-Attributed ASR: Speaker Guided Decoder and Input Feature Analysis
Authors Can Cui MULTISPEECH , Imran Ahamad Sheikh, Mostafa Sadeghi MULTISPEECH , Emmanuel Vincent MULTISPEECH
我们提出了一种端到端多通道说话人属性自动语音识别 MC SA ASR 系统，该系统将基于 Conformer 的编码器与多帧跨通道注意和说话人属性 Transformer 的解码器相结合。据我们所知，这是第一个在多通道设置中有效集成 ASR 和说话人识别模块的模型。在 LibriSpeech 数据的模拟混合中，与之前提出的单通道和多通道方法相比，我们的系统分别将字错误率 WER 降低了 12 和 16。此外，我们研究了不同输入特征（包括多通道幅度和相位信息）对 ASR 性能的影响。

Decomposed Prompt Tuning via Low-Rank Reparameterization
Authors Yao Xiao, Lu Xu, Jiaxi Li, Wei Lu, Xiaoli Li
虽然提示调整方法已经实现了高效的竞争性能，但我们观察到它们总是采用相同的初始化过程，其中软提示要么随机初始化，要么从现有的嵌入词汇中派生。与这些传统方法相反，本研究旨在研究一种获得软提示的替代方法。我们的实证研究表明，软提示通常表现出较低的内在等级特征。根据这些观察，我们提出了分解提示调整，这是一种利用低秩矩阵来初始化软提示的新颖方法。通过低秩重新参数化，我们的方法显着减少了可训练参数的数量，同时保持了有效性。

JMedLoRA:Medical Domain Adaptation on Japanese Large Language Models using Instruction-tuning
Authors Issey Sukeda, Masahiro Suzuki, Hiroki Sakaji, Satoshi Kodera
在 ChatGPT 等大型语言模型法学硕士推动的持续影响浪潮中，法学硕士对医学领域的适应已成为一个重要的研究前沿。由于主流法学硕士往往是为通用应用而设计的，因此通过领域适应构建医学法学硕士是一个巨大的挑战。虽然指令调整用于微调一些法学硕士，但其在领域适应中的确切作用仍然未知。在这里，我们展示了基于 LoRA 的指令调整对日本医学问答任务性能的贡献。在此过程中，我们对多项选择题采用多方面的评估，除了传统的准确性之外，还包括基于精确匹配和格式塔距离的评分。我们的研究结果表明，基于 LoRA 的指令调整可以部分地将特定领域的知识纳入法学硕士，更大的模型表现出更明显的效果。此外，我们的结果强调了以英语为中心的模型在领域适应中适应日语应用的潜力，同时也强调了以日语为中心的模型持续存在的局限性。

Let's reward step by step: Step-Level reward model as the Navigators for Reasoning
Authors Qianli Ma, Haotian Zhou, Tingkai Liu, Jianbo Yuan, Pengfei Liu, Yang You, Hongxia Yang
近年来，大型语言模型法学硕士在多步推理方面取得了相当大的进步。先前的研究已经阐明了在模型推理过程中集成反馈或搜索机制以提高推理准确性的优点。过程监督奖励模型 PRM 通常在训练阶段为法学硕士提供逐步反馈，类似于近端策略优化 PPO 或拒绝抽样。我们的目标是检查 PRM 在推理阶段的功效，以帮助识别数学推理和代码生成等多步骤任务的最佳解决方案路径。为此，我们提出了一种启发式贪婪搜索算法，该算法利用 PRM 的步骤级反馈来优化法学硕士探索的推理路径。与 Chain of Thought CoT 相比，这种定制的 PRM 在 GSM8K 和 MATH 等数学基准上展示了增强的结果。此外，为了探索我们方法的多功能性，我们开发了一种新方法来自动生成编码任务的步骤级奖励数据集，并在代码生成任务中观察到类似的性能改进。

Prompt Packer: Deceiving LLMs through Compositional Instruction with Hidden Attacks
Authors Shuyu Jiang, Xingshu Chen, Rui Tang
最近，具有强大通用能力的大型语言模型法学硕士已经越来越多地集成到各种Web应用程序中，同时接受对齐训练，以确保生成的内容符合用户意图和道德规范。不幸的是，它们在实际应用中仍然存在产生仇恨言论和犯罪活动等有害内容的风险。目前的方法主要依靠检测、收集和培训有害提示来预防此类风险。然而，他们通常只关注具有单一意图的表面有害提示，而忽略了具有多种意图的复合攻击指令，这些指令很容易在现实场景中引发有害内容。在本文中，我们介绍了一种混淆有害指令的创新技术——组合指令攻击CIA（Compositional Instruction Attacks CIA），它是指通过组合和封装多个指令进行攻击。 CIA 将有害提示隐藏在无害意图的指令中，使模型无法识别潜在的恶意意图。此外，我们还实施了两种转换方法，即 T CIA 和 W CIA，自动将有害指令伪装成口头或书面任务，使它们对法学硕士看起来无害。我们使用两个安全评估数据集和两个有害提示数据集在 GPT 4、ChatGPT 和 ChatGLM2 上评估了 CIA。它在安全评估数据集上的攻击成功率为 95，在有害提示数据集上，GPT 4 的攻击成功率为 83，ChatGPT gpt 3.5 Turbo 支持的攻击成功率为 91，ChatGLM2 6B 的攻击成功率为 91。我们的方法揭示了法学硕士对此类包含潜在有害意图的组合指令攻击的脆弱性，为法学硕士的安全发展做出了重大贡献。

Verbosity Bias in Preference Labeling by Large Language Models
Authors Keita Saito, Akifumi Wachi, Koki Wataoka, Youhei Akimoto
近年来，大型语言模型法学硕士的普及率显着飙升，改变了自然语言处理和机器学习的格局。提高 LLM 表现的一个关键因素是通过人类反馈 RLHF 的强化学习实现与人类的一致性，对于许多 LLM 来说，如 GPT 4、Bard 等。此外，最近的研究正在调查用来自人类反馈的反馈替代人类反馈。其他名为“AI 反馈强化学习 RLAIF”的法学硕士。我们研究了与其他法学硕士一起评估法学硕士所带来的偏见，并仔细研究了冗长偏见，即法学硕士有时更喜欢更冗长的答案，即使他们具有相似的品质。我们看到，在我们的问题设置中，GPT 4 比人类更喜欢更长的答案。

Fine-tuning ChatGPT for Automatic Scoring
Authors Ehsan Latif, Xiaoming Zhai
这项研究强调了经过微调的 ChatGPT GPT 3.5 在使用科学教育中的示例评估任务自动对学生书面回答进行评分方面的潜力。最近对 OpenAI 生成模型 GPT 3.5 的研究证明了其在高精度预测自然语言和类似人类反应方面的优越性。 GPT 3.5 已经在大量在线语言材料（例如期刊和维基百科）上进行了训练，因此，自动评分需要的不仅仅是直接使用预训练的 GPT 3.5，因为学生使用的语言与训练材料不同。这意味着针对特定任务对数据进行微调的特定领域模型可以提高模型性能。在这项研究中，我们使用包含中学生和高中生反应以及专家评分的不同数据集对六项评估任务进行了微调 GPT 3.5。这六个任务包括两个多标签任务和四个多类别评估任务。我们将微调的 GPT 3.5 与微调的最先进的 Google 生成语言模型 BERT 的性能进行比较。结果表明，在领域训练中，根据 BERT 的科学问题和回答构建的语料库达到了平均准确度 0.838，SD 0.069。 GPT 3.5 显示六项任务的自动评分准确度平均值 9.15、SD 0.042 显着平均提高 9.1，p 0.001 0.05。具体来说，对于多标签任务 item 1 with 5 个标签和 item 2 with 10 个标签，GPT 3.5 在所有标签上实现了比 BERT 显着更高的评分准确率，其中第二项实现了 7.1 的提升。与 BERT 相比，GPT 3.5 的四个多类别项目的平均得分提高了 10.6。我们的研究证实了微调 GPT 3.5 在对教育领域特定数据的学生反应进行高精度自动评分方面的有效性。

A Comprehensive Evaluation of Tool-Assisted Generation Strategies
Authors Alon Jacovi, Avi Caciularu, Jonathan Herzig, Roee Aharoni, Bernd Bohnet, Mor Geva
越来越多的研究领域调查使用搜索引擎、计算器等工具来增强语言模型，以克服其缺点，例如知识缺失或不正确、逻辑推理不正确。已经提出了各种少数射击工具使用策略。然而，不同策略之间或这些策略与不利用工具的强大基线之间没有系统和公平的比较。我们进行了广泛的实证分析，发现 1 在各种数据集、示例难度级别和模型中，强大的无工具基线与工具辅助策略相比具有竞争力，这意味着在上下文演示中有效使用工具是知识检索中一个难以解决的问题 2在第 3 代工具辅助策略中，使用工具精炼不正确输出的策略优于在第 3 代之前或期间检索相关信息的策略，其工作所需的代币数量昂贵，会产生数量级的额外成本，这不会转化为显着改进表现。

NASH: A Simple Unified Framework of Structured Pruning for Accelerating Encoder-Decoder Language Models
Authors Jongwoo Ko, Seungjoon Park, Yujin Kim, Sumyeong Ahn, Du Seong Chang, Euijai Ahn, Se Young Yun
事实证明，结构化剪枝方法可以有效减少模型大小并加快 Transformer 等各种网络架构中的推理速度。尽管编码器解码器模型在众多 NLP 任务中具有多功能性，但与仅编码器模型相比，此类模型上的结构化剪枝方法的探索相对较少。在本研究中，我们分别从编码器和解码器组件的解耦修剪角度研究编码器解码器模型的结构化修剪的行为。我们的研究结果强调了两个见解：1 解码器层的数量是推理速度的主导因素，2 剪枝编码器网络的低稀疏性提高了生成质量。受这些发现的启发，我们提出了一个简单而有效的框架 NASH，它缩小了编码器范围并缩短了编码器解码器模型的解码器网络。

Improving Large Language Model Fine-tuning for Solving Math Problems
Authors Yixin Liu, Avi Singh, C. Daniel Freeman, John D. Co Reyes, Peter J. Liu
尽管他们在许多自然语言任务中取得了成功，但解决数学问题对于大型语言模型法学硕士来说仍然是一个重大挑战。在解决数学问题时，法学硕士通过 1 次和通过 N 次表现之间存在很大差距，这表明法学硕士可能接近找到正确的解决方案，从而激励我们探索微调方法以解锁法学硕士的性能。使用具有挑战性的 MATH 数据集，我们研究了三种微调策略 1 解决方案微调，我们微调以生成给定数学问题的详细解决方案 2 解决方案集群重新排名，其中 LLM 作为解决方案验证评估者进行微调以选择在生成的候选解决方案簇中进行3个多任务顺序微调，将解决方案生成和评估任务有效地集成在一起，以提高LLM性能。通过这些方法，我们对一系列 PaLM 2 模型进行了彻底的实证研究，发现 1 用于微调的逐步解决方案的质量和风格可以对模型性能产生重大影响 2 当解决方案重新排序和多数时单独使用时，投票可以有效提高模型性能，也可以一起使用，以实现更大的性能提升 3 多任务微调，顺序分离解决方案生成和评估任务，与解决方案微调基线相比，可以提供更高的性能。

Empirical Study of Zero-Shot NER with ChatGPT
Authors Tingyu Xie, Qi Li, Jian Zhang, Yan Zhang, Zuozhu Liu, Hongwei Wang
大型语言模型法学硕士在各种自然语言处理任务中展现出强大的能力。这项工作的重点是探索 LLM 在零样本信息提取方面的性能，重点关注 ChatGPT 和命名实体识别 NER 任务。受LLM在符号和算术推理方面卓越推理能力的启发，我们将流行的推理方法应用于NER，并提出针对NER的推理策略。首先，我们通过标签将 NER 任务分解为更简单的子问题，探索分解的问答范式。其次，我们提出句法增强以两种方式刺激模型的中间思维：句法提示，鼓励模型分析句法结构本身；工具增强，为模型提供解析工具生成的句法信息。此外，我们通过提出两阶段多数投票策略来适应 NER 的自我一致性，该策略首先投票给最一致的提及，然后投票给最一致的类型。所提出的方法在七个基准（包括中文和英文数据集）以及特定领域和一般领域场景上实现了零样本 NER 的显着改进。此外，我们还对错误类型进行了全面分析，并提出了优化方向的建议。

UvA-MT's Participation in the WMT23 General Translation Shared Task
Authors Di Wu, Shaomu Tan, David Stap, Ali Araabi, Christof Monz
本文描述了 UvA MT 提交给 WMT 2023 通用机器翻译共享任务的情况。我们参加英语希伯来语两个方向的受限赛道。在本次比赛中，我们表明，通过使用一个模型来处理双向任务，作为多语言机器翻译 MMT 的最小设置，可以在两个方向上获得与传统双语翻译相当的结果。

FiLM: Fill-in Language Models for Any-Order Generation
Authors Tianxiao Shen, Hao Peng, Ruoqi Shen, Yao Fu, Zaid Harchaoui, Yejin Choi
语言模型已成为当今人工智能系统的支柱。然而，它们占主导地位的从左到右的生成限制了双向上下文的使用，这对于涉及在中间填充文本的任务至关重要。我们提出了填充语言模型 FiLM，这是一种新的语言建模方法，允许在任何位置灵活生成，而无需遵守特定的生成顺序。它的训练通过采用从 Beta 分布中采样的不同掩码概率来扩展掩码语言建模目标，以增强 FiLM 的生成能力。在推理过程中，FiLM 可以无缝插入缺失的短语、句子或段落，确保输出流畅且与周围上下文一致。在自动和人工评估中，FiLM 都优于现有的填充方法，这些方法依赖于在重新排列的文本片段上训练的从左到右的语言模型。 FiLM 易于实现，可以从头开始训练，也可以从左到右语言模型进行微调。

Homophone Disambiguation Reveals Patterns of Context Mixing in Speech Transformers
Authors Hosein Mohebbi, Grzegorz Chrupa a, Willem Zuidema, Afra Alishahi
Transformer 已成为语音处理中的关键架构，但我们对它们如何构建声学和语言结构表示的理解有限。在本研究中，我们通过研究如何调整为文本模型开发的上下文混合度量并将其应用于口语模型来解决这一差距。我们确定了一种非常适合法语同音案例研究的语言现象，例如livre 与 livres ，其中语音识别模型必须注意句法线索，例如限定词和代词，以便消除具有相同发音的口语单词的歧义，并在尊重语法一致性的同时转录它们。我们对基于 Transformer 的语音模型进行了一系列受控实验和探索分析。

Empirical study of pretrained multilingual language models for zero-shot cross-lingual generation
Authors Nadezhda Chirkova, Sheng Liang, Vassilina Nikoulina
零样本跨语言生成假设在一种语言的生成任务上对多语言预训练语言模型 mPLM 进行微调，然后使用它以其他语言对该任务进行预测。之前的工作注意到了错误语言生成的常见问题，并提出了解决该问题的方法，通常使用 mT5 作为骨干模型。在这项工作中，我们测试了替代 mPLM，例如 mBART 和 NLLB，考虑使用适配器进行完全微调和参数高效微调。我们发现带有适配器的 mBART 的性能与相同尺寸的 mT5 类似，并且 NLLB 在某些情况下可以具有竞争力。

Reformulating NLP tasks to Capture Longitudinal Manifestation of Language Disorders in People with Dementia
Authors Dimitris Gkoumas, Matthew Purver, Maria Liakata
痴呆症与阻碍沟通的语言障碍有关。在这里，我们通过使用中等大小的预训练语言模型并迫使其专注于重新制定的自然语言处理 NLP 任务和相关的语言模式来自动学习语言障碍模式。我们的实验表明，封装上下文信息并通过语言模式增强梯度信号的 NLP 任务有利于性能。然后，我们使用最佳模型的概率估计来构建数字语言标记，以衡量沟通的整体质量和各种语言障碍的强度。我们从纵向角度研究数字标记如何表征痴呆症言语。我们发现，我们提出的交流标记能够稳健可靠地表征痴呆症患者的语言，优于现有的语言方法，并通过与临床行为标记的显着相关性显示外部有效性。

Lifelong Sequence Generation with Dynamic Module Expansion and Adaptation
Authors Chengwei Qin, Shafiq Joty, Chen Chen
终身序列生成LSG是持续学习中的一个问题，旨在不断地在一系列生成任务上训练模型，以学习不断出现的新的生成模式，同时避免忘记以前的知识。现有的LSG方法主要侧重于维护旧知识，而很少关注跨任务的知识迁移。相比之下，人类可以通过利用以前从类似任务中获得的知识来更好地学习新任务。受人类学习范式的启发，我们提出了动态模块扩展和适应DMEA，使模型能够根据任务相关性动态确定获取新知识的架构，并选择最相似的先前任务以方便适应新任务。此外，由于学习过程很容易偏向当前任务，这可能会导致对先前学习的知识的更严重的遗忘，因此我们提出动态梯度缩放来平衡当前任务和重放任务的学习。

In-Context Learning with Iterative Demonstration Selection
Authors Chengwei Qin, Aston Zhang, Anirudh Dagar, Wenming Ye
在规模进步的推动下，大型语言模型法学硕士通过上下文学习 ICL 表现出了强大的少数镜头学习能力。然而，ICL 的性能已被证明对少数镜头演示的选择高度敏感。选择最合适的示例作为上下文仍然是一个持续的挑战和一个悬而未决的问题。现有文献强调了选择与测试样本不同或语义相似的示例的重要性，而忽略了最佳选择维度（即多样性或相似性）是特定于任务的事实。利用这两个维度的优点，我们提出了迭代演示选择IDS。使用零样本思维链推理零样本 CoT，IDS 迭代地选择不同但仍与测试样本密切相关的示例作为 ICL 演示。具体来说，IDS 在演示选择之前将零样本 CoT 应用于测试样本。然后，使用输出推理路径来选择在测试样本前面添加的演示以进行推理。生成的答案附有相应的推理路径，用于在下一次迭代中提取一组新的演示。经过多次迭代后，IDS采用多数投票的方式得出最终结果。

Enhancing Stance Classification with Quantified Moral Foundations
Authors Hong Zhang, Prasanta Bhattacharya, Wei Gao, Liang Ze Wong, Brandon Siyuan Loh, Joseph J. P. Simons, Jisun An
这项研究通过纳入更深层次的心理属性，特别是个人的道德基础，增强了社交媒体上的立场检测。这些从理论上得出的维度旨在提供个人道德关注的全面概况，在最近的研究中，这些道德关注已与社会、政治、健康和环境等一系列领域的行为联系起来。在本文中，我们研究了道德基础维度如何有助于预测个人对给定目标的立场。具体来说，我们结合从文本中提取的道德基础特征以及消息语义特征，在一系列目标和模型中对消息和用户级别的立场进行分类。我们的初步结果表明，对道德基础进行编码可以提高立场检测任务的性能，并有助于阐明特定道德基础与目标主题的在线立场之间的关联。

Merging Experts into One: Improving Computational Efficiency of Mixture of Experts
Authors Shwai He, Run Ze Fan, Liang Ding, Li Shen, Tianyi Zhou, Dacheng Tao
扩展语言模型的规模通常会带来 NLP 任务的显着进步。但它通常会带来计算成本不断增长的代价。尽管稀疏专家混合 MoE 可以通过激活一小部分参数（例如每个输入一个专家）来降低成本，但如果增加激活专家的数量，其计算量会显着增加，从而限制其实际效用。我们能否在不大幅增加计算成本的情况下保留添加更多专家的优势？在本文中，我们首先证明了选择多个专家的优越性，然后提出了一种名为 textbf texttt Merging Experts into One MEO 的计算高效方法，该方法将计算成本降低到一位专家的意见。大量实验表明，MEO 显着提高了计算效率，例如，FLOPS 从普通 MoE 的 72.0G 下降到 MEO 的 28.6G。此外，我们提出了一个令牌级注意力块，进一步提高了令牌级 MEO 的效率和性能，例如 GLUE 基准上的 83.3 MEO 与 82.6 vanilla MoE 平均得分。我们的代码将在接受后发布。

Assessing the Reliability of Large Language Model Knowledge
Authors Weixuan Wang, Barry Haddow, Alexandra Birch, Wei Peng
大型语言模型法学硕士因其在知识探索任务中的强大表现而被视为知识库。法学硕士通常使用准确性进行评估，但该指标并未反映法学硕士对提示和上下文可变性等幻觉诱发因素的脆弱性。我们如何评估法学硕士持续提供事实正确答案的能力在本文中，我们提出了模型知识可靠性得分监控器，这是一种旨在直接衡量法学硕士事实可靠性的新颖指标。 MONITOR 计算有效输出的概率分布与同一 LLM 使用不同风格的提示和上下文探测同一事实所产生的对应输出之间的距离。对 12 个 LLM 进行的综合实验证明了 MONITOR 在评估事实可靠性方面的有效性法学硕士，同时保持较低的计算开销。

RSVP: Customer Intent Detection via Agent Response Contrastive and Generative Pre-Training
Authors Yu Chien Tang, Wei Yao Wang, An Zi Yen, Wen Chih Peng
客户服务中的对话系统是使用神经模型开发的，通过根据客户的话语检测客户意图，为用户提供精确的答案，并在面向任务的对话中提供全天候支持。现有的意图检测方法高度依赖于具有大规模数据集的自适应预训练语言模型，但数据收集的主要成本可能会阻碍其优越性。此外，他们忽略了客服人员对话响应中的信息，这些信息的收集成本较低，但对客户意图很重要，因为客服人员必须根据客户意图定制回复。在本文中，我们提出了 RSVP，这是一种致力于面向任务的对话的自监督框架，它利用代理响应以两阶段的方式进行预训练。具体来说，我们引入了两个预训练任务来合并话语响应对的关系：1通过从一批候选者中选择正确的响应来检索响应，2通过模仿代理生成对给定话语的响应来生成响应。我们对两个现实世界客户服务数据集的基准测试结果表明，RSVP 的准确度明显优于最先进的基线 4.95，平均而言，MRR 3 为 3.4，MRR 5 为 2.75。

Revisiting Graph Meaning Representations through Decoupling Contextual Representation Learning and Structural Information Propagation
Authors Li Zhou, Wenyu Chen, Dingyi Zeng, Hong Qu, Daniel Hershcovich
在自然语言理解领域，神经模型和图意义表示 GMR 的交叉仍然是一个引人注目的研究领域。尽管人们的兴趣日益浓厚，但在理解 GMR 的确切影响方面仍然存在重大差距，特别是在关系提取任务方面。为了解决这个问题，我们引入了 DAGNN plus，这是一种简单且参数高效的神经架构，旨在将上下文表示学习与结构信息传播分离。与各种序列编码器和 GMR 相结合，该架构为在两个英语和两个中文数据集上进行系统实验提供了基础。我们的实证分析利用四种不同的图形式和九个解析器。结果产生了对 GMR 的细致入微的理解，显示了四个数据集中的三个数据集的改进，特别是由于高度准确的解析器，英语比中文更受青睐。有趣的是，与一般领域数据集相比，GMR 在文学领域数据集中的效果似乎较差。

VLIS: Unimodal Language Models Guide Multimodal Language Generation
Authors Jiwan Chung, Youngjae Yu
利用语言和视觉协同作用的多模态语言生成是一个快速扩展的领域。然而，现有的视觉语言模型在需要复杂语言理解的任务中面临挑战。为了解决这个问题，我们引入了视觉语言模型作为重要性采样权重VLIS，这是一种新颖的框架，它将视觉语言模型的视觉调节能力与单模态文本语言模型的语言理解相结合，无需进一步训练。它从视觉语言模型中提取每个图像和文本的逐点互信息，并使用该值作为重要性采样权重来调整纯文本模型的标记可能性。 VLIS 改进了各种任务的视觉语言模型，包括常识理解 WHOOPS、OK VQA 和 ScienceQA 以及复杂文本生成 Concadia、图像段落字幕和 ROCStories。

Improving Access to Justice for the Indian Population: A Benchmark for Evaluating Translation of Legal Text to Indian Languages
Authors Sayan Mahapatra, Debtanu Datta, Shubham Soni, Adrijit Goswami, Saptarshi Ghosh
由于历史原因，印度司法部门的大多数法律文本都是用复杂的英语编写的。然而，只有大约 10 名印度人能够轻松阅读英语。因此，需要以各种印度语言提供法律文本，可能是通过翻译英语提供的法律文本。尽管对印度语言之间的翻译进行了大量的研究，但据我们所知，在法律领域之前并没有太多关于此类翻译的研究。在这项工作中，我们构建了第一个高质量的法律平行语料库，其中包含英语和九种印度语言的对齐文本单元，其中包括几种低资源语言。我们还在此语料库上对各种机器翻译 MT 系统的性能进行了基准测试，包括商业 MT 系统、开源 MT 系统和大型语言模型。

Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer
Authors Boan Liu, Liang Ding, Li Shen, Keqin Peng, Yu Cao, Dazhao Cheng, Dacheng Tao
专家混合 MoE 已成为深度学习领域非常成功的技术，它基于分而治之的原则，可以在不显着增加计算成本的情况下最大化模型容量。即使在大规模语言模型 LLM 时代，MoE 仍然发挥着至关重要的作用，因为一些研究人员表示 GPT 4 采用 MoE 结构来确保多样化的推理结果。然而，教育部很容易出现绩效退化，尤其是专家之间的不平衡和同质代表性问题。尽管之前的研究已经广泛解决了不平衡问题，但同质代表性的挑战仍未解决。在这项研究中，我们揭示了同质表示问题，即 MoE 中的专家未能专业化且缺乏多样性，导致在表现良好的 MoE 模型中，他们的表示相似度高达 99，令人沮丧。我们认为，这个问题限制了教育部的表达能力，并且违背了其初衷。为了解决这个问题，我们提出了一种简单而高效的解决方案 OMoE，即正交专家优化器。此外，我们引入了一种交替训练策略，鼓励每个专家在与其他专家跨越的子空间正交的方向上进行更新。我们的算法通过两个关键方式促进 MoE 训练，首先，它显式地增强了表示多样性，其次，它在正交权重计算过程中隐式地促进了专家之间的交互。

When can transformers reason with abstract symbols?
Authors Enric Boix Adsera, Omid Saremi, Emmanuel Abbe, Samy Bengio, Etai Littwin, Joshua Susskind
我们研究了 Transformer Large Language Model LLM 在涉及抽象符号的关系推理任务上的能力。长期以来，神经科学文献一直在研究此类任务，将其作为编程、数学和语言推理等更复杂能力的基本构建模块。对于 i 回归任务，我们证明 Transformer 在训练时可以泛化，但需要数量惊人的训练数据。对于带有符号标签的 ii 个下一个标记预测任务，我们展示了逆缩放定律变换器随着嵌入维度的增加而无法泛化。

Domain-Specific Language Model Post-Training for Indonesian Financial NLP
Authors Ni Putu Intan Maharani, Yoga Yustiawan, Fauzy Caesar Rochim, Ayu Purwarianti
BERT 和 IndoBERT 在多项 NLP 任务中取得了令人印象深刻的表现。已经有一些关于其在专业领域尤其是英语领域的适应性的调查。我们专注于金融领域和印尼语，使用小规模的印尼金融语料库对金融领域预训练的 IndoBERT 进行后训练。在本文中，我们构建了印尼自监督金融语料库、印尼金融情绪分析数据集、印尼金融主题分类数据集，并发布了一系列金融 NLP 的 BERT 模型。我们还评估了特定领域的后期培训在情感分析和主题分类任务上的有效性。

KGQUIZ: Evaluating the Generalization of Encoded Knowledge in Large Language Models
Authors Yuyang Bai, Shangbin Feng, Vidhisha Balachandran, Zhaoxuan Tan, Shiqi Lou, Tianxing He, Yulia Tsvetkov
大型语言模型法学硕士在知识密集型任务上表现出卓越的性能，这表明现实世界的知识被编码在其模型参数中。然而，除了对有限知识领域的一些探索性任务进行探索外，如何系统地评估法学硕士的知识以及他们的知识能力在广泛的知识领域和日益复杂的任务格式中的泛化程度还不清楚。为此，我们提出了知识密集型基准KGQuiz，全面考察法学硕士的知识泛化能力。 KGQuiz 是一个由基于三元组的知识构建的可扩展框架，涵盖三个知识领域，并由五个任务组成，这些任务的复杂性不断增加，对错、多项选择 QA、空白填充、事实编辑和开放式知识生成。为了更好地了解法学硕士的知识能力及其泛化，我们在 KGQuiz 基准测试上评估了 10 个开源和黑盒法学硕士，涉及五个知识密集型任务和知识领域。大量实验表明，法学硕士在简单的知识 QA 任务中取得了令人印象深刻的表现，而需要更复杂推理或采用领域特定事实的设置和上下文仍然存在重大挑战。

HiCL: Hierarchical Contrastive Learning of Unsupervised Sentence Embeddings
Authors Zhuofeng Wu, Chaowei Xiao, VG Vinod Vydiswaran
在本文中，我们提出了一种分层对比学习框架 HiCL，该框架考虑局部片段级别和全局序列级别关系以提高训练效率和效果。传统方法通常对整个序列进行编码以与其他序列进行对比，通常忽略局部表示学习，从而导致推广到较短文本的挑战。相反，HiCL 通过将序列分为几个片段并采用局部和全局对比学习来建模片段级别和序列级别关系来提高其有效性。此外，考虑到 Transformer 对输入 token 的二次时间复杂度，HiCL 通过首先对短片段进行编码，然后聚合它们以获得序列表示来提高训练效率。

Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring
Authors Ankitha Sudarshan, Vinay Samuel, Parth Patwa, Ibtihel Amara, Aman Chadha
自动语音识别 ASR 引起了广泛的研究兴趣。最近的突破给 ASR 系统带来了不同的前景，例如忠实地转录口语，这是构建会话代理的关键进步。然而，准确识别上下文相关的单词和短语仍然面临着迫在眉睫的挑战。在这项工作中，我们提出了一种新方法，通过语义格处理增强 ASR 系统内的上下文识别，利用深度学习模型的力量，在各种词汇和说话风格中准确地提供准确的转录。我们的解决方案包括使用隐马尔可夫模型和高斯混合模型 HMM GMM 以及深度神经网络 DNN 模型，集成语言和声学建模以提高准确性。我们使用基于变压器的模型为我们的网络注入正确的重新评分词格，实现了显着降低词错误率 WER 的卓越功能。

Beyond Testers' Biases: Guiding Model Testing with Knowledge Bases using LLMs
Authors Chenyang Yang, Rishabh Rustogi, Rachel Brower Sinning, Grace A. Lewis, Christian K stner, Tongshuang Wu
当前的模型测试工作主要集中在创建测试用例。确定要测试的内容是一个很大程度上被忽视且缺乏支持的步骤。我们提出了 Weaver，这是一种交互式工具，支持引导模型测试的需求获取。 Weaver 使用大型语言模型来生成知识库，并以交互方式从中推荐概念，从而使测试人员能够引出进一步测试的需求。 Weaver为测试人员提供了丰富的外部知识，并鼓励测试人员系统地探索超越自身偏见的多样化概念。在一项用户研究中，我们表明 NLP 专家和非专家在使用 Weaver 时发现了更多、更多样化的值得测试的概念。他们总共发现了 200 多个使用零样本 ChatGPT 进行姿态检测的失败测试用例。

Legend at ArAIEval Shared Task: Persuasion Technique Detection using a Language-Agnostic Text Representation Model
Authors Olumide E. Ojo, Olaronke O. Adebanji, Hiram Calvo, Damian O. Dieke, Olumuyiwa E. Ojo, Seye E. Akinsanya, Tolulope O. Abiola, Anna Feldman
在本文中，我们分享了我们在 2023 年阿拉伯语人工智能任务评估挑战赛 ArAIEval 中表现最好的提交内容。我们的重点是任务 1，其中涉及识别推文和新闻文章摘录中的说服技巧。使用 XLM RoBERTa（一种与语言无关的文本表示模型）的训练循环来检测阿拉伯文本中的说服技术。事实证明，这种方法是有效的，它利用了多语言语言模型的微调。

Lexical Entrainment for Conversational Systems
Authors Zhengxiang Shi, Procheta Sen, Aldo Lipani
对话代理在协助日常任务方面已变得无处不在，并且有望拥有类似人类的特征。其中一个特征是词汇夹带 LE ，这是一种人类对话中的说话者倾向于自然地、下意识地将他们的词汇选择与对话者的词汇选择保持一致的现象，从而导致更成功和更有吸引力的对话。举个例子，如果数字助理对问题“我今天在金陵面馆的预订时间是什么时候”回复“你预约金陵面馆的时间是晚上 7 点”，那么可能会让人感觉助理正在试图纠正说话者的错误，而回复为如果您在晚上 7 点预订金陵面馆，可能会被认为更积极。这凸显了 LE 在建立共享术语以实现最大程度的清晰度和减少对话中的歧义方面的重要性。然而，我们在这项工作中证明，当前的响应生成模型并不能充分解决这一关键的类人现象。为了解决这个问题，我们提出了一个名为 MULTIWOZ ENTR 的新数据集，以及对话系统的 LE 度量。此外，我们提出了一种通过两个新任务（LE 提取任务和 LE 生成任务）将 LE 显式集成到会话系统中的方法。

An End-to-End System for Reproducibility Assessment of Source Code Repositories via Their Readmes
Authors Ey p Kaan Akdeniz, Selma Tekir, Malik Nizar Asad Al Hinnawi
机器学习研究可重复性的提高一直是学习绩效显着提高的驱动力。科学界通过在审稿人表格中纳入可重复性评级并将其视为论文整体评估的关键因素，进一步促进了这一努力。随附的源代码不足以使作品具有可重现性。共享代码也应满足 ML 再现性检查表。这项工作旨在支持带有源代码的论文的可重复性评估。我们提出了一个对源代码存储库的自述文件进行操作的端到端系统。该系统检查给定自述文件是否符合广泛使用的用于共享研究源代码的平台提出的模板。我们的系统根据自定义函数生成分数以组合各部分分数。我们还训练了一个分层变压器模型，为给定的自述文件分配一个类标签。实验结果表明，基于部分相似性的系统比分层变压器表现更好。

ASSERT: Automated Safety Scenario Red Teaming for Evaluating the Robustness of Large Language Models
Authors Alex Mei, Sharon Levy, William Yang Wang
随着大型语言模型融入社会，对一系列提示的鲁棒性对于在高方差环境中保持可靠性变得越来越重要。鲁棒性评估必须全面封装用户可能调用智能系统的各种设置。本文提出了 ASSERT，即自动化安全场景红队，由语义对齐增强、目标引导和对抗性知识注入三种方法组成。为了进行稳健的安全评估，我们将这些方法应用于人工智能安全的关键领域，通过算法生成一套提示测试，涵盖不同的稳健性设置、语义等价、相关场景和对抗性。我们将提示分为四个安全域，以便对这些域如何影响模型性能进行细粒度分析。尽管现有最先进的模型有专门的保护措施，但我们发现语义相关场景中的绝对分类准确率在统计上显着存在高达 11 的性能差异，并且在零样本对抗设置中的错误率高达 19 的绝对误差，这引起了对用户人身安全的担忧

A Digital Language Coherence Marker for Monitoring Dementia
Authors Dimitris Gkoumas, Adam Tsakalidis, Maria Liakata
使用自发语言得出适当的数字标记已成为诊断和监测痴呆症的一种新兴的、有前途的且非侵入性的方法。在这里，我们提出了捕获语言连贯性的方法，作为一种具有成本效益的、人类可解释的数字标记，用于监测痴呆症患者的认知变化。我们引入了一项新颖的任务来学习简短转录叙述中话语的时间逻辑一致性并研究一系列神经方法。我们比较了痴呆症患者和健康对照者之间的语言连贯性模式，并对三种临床生物标记进行了纵向评估，以调查我们提出的数字连贯性标记的可靠性。一致性标记显示轻度认知障碍患者、阿尔茨海默病患者和健康对照者之间存在显着差异。

An Expression Tree Decoding Strategy for Mathematical Equation Generation
Authors Wenqi Zhang, Yongliang Shen, Qingpeng Nong, Zeqi Tan Yanna Ma, Weiming Lu
从自然语言生成数学方程需要准确理解数学表达式之间的关系。现有的方法可以大致分为令牌级别和表达级别生成。前者将方程视为数学语言，顺序生成数学标记。表达式级别方法一一生成每个表达式。然而，每个表达式代表一个求解步骤，这些步骤之间自然存在并行或依赖关系，这是当前顺序方法所忽略的。因此，我们将树结构集成到表达水平生成中，并提倡表达树解码策略。为了生成以表达式作为节点的树，我们采用逐层并行解码策略，我们在每一层并行解码多个独立表达式叶节点，并逐层重复并行解码以顺序生成这些依赖于其他表达式的父节点表达式。此外，采用二分匹配算法将多个预测与每层的注释进行对齐。

Moral consensus and divergence in partisan language use
Authors Nakwon Rim, Marc G. Berman, Yuan Chang Leong
政治话语中的两极分化大幅加剧，导致党派分歧不断扩大。在本文中，我们分析了 Reddit 社区中的 294,476,146 条评论和新闻媒体中的 6,749,781 篇文章中大规模的现实世界语言使用情况，以揭示党派语言划分的心理维度。使用词嵌入模型来捕获基于大量文本语料库中单词共现的语义关联，我们识别了自然政治话语中存在的情感极化模式。然后，我们从道德到不道德、威胁到安全、以及愉快到不愉快的价态等维度，探讨了与七个政治主题相关的词语的语义关联，例如堕胎、移民。在 Reddit 社区和新闻媒体中，我们发现不同党派倾向的文本来源之间的词语道德关联存在微小但系统性的差异。保守派和自由派文本来源之间的词语道德关联高度相关（平均 rho 0.96），但差异仍然可靠，使我们能够以高于 85 的分类准确率区分党派界限的文本来源。这些发现强调，尽管各个政治派别有着共同的道德理解，但始终存在差异，这些差异塑造了党派语言，并可能加剧政治两极分化。我们的研究结果来自社交媒体上的非正式互动和新闻媒体的精心策划的叙述，表明这些趋势是普遍存在的。

RethinkingTMSC: An Empirical Study for Target-Oriented Multimodal Sentiment Classification
Authors Junjie Ye, Jie Zhou, Junfeng Tian, Rui Wang, Qi Zhang, Tao Gui, Xuanjing Huang
近年来，面向目标的多模态情感分类TMSC受到了学者们的广泛关注。然而，当前的多模式模型已经达到了性能瓶颈。为了调查这个问题的原因，我们对数据集进行了广泛的实证评估和深入分析，以回答以下问题 Q1 模式对于 TMSC 同样重要 Q2 哪些多模态融合模块更有效 Q3 现有数据集是否充分支持我们的研究实验和分析表明，当前的 TMSC 系统主要依赖于文本模态，因为大多数目标情感只能通过文本来确定。因此，我们在模型设计和数据集构建方面指出了 TMSC 任务的几个工作方向。

Solving Math Word Problems with Reexamination
Authors Yi Bin, Wenhao Shi, Yujuan Ding, Yang Yang, See Kiong Ng
数学应用题MWP解决的目的是理解描述性数学问题并计算结果，之前的努力主要致力于升级不同的技术模块。本文通过引入伪对偶任务来增强 MWP 求解，为训练过程中的 textit 复查过程带来了不同的视角。我们提出了一种伪对偶 PseDual 学习方案来对这一过程进行建模，该方案与模型无关，因此可以适应任何现有的 MWP 求解器。伪对偶任务具体定义为将表达式中的数字填充回原始单词问题，并屏蔽数字。为了促进两个任务的有效联合学习，我们进一步为数字填充任务设计了一种预定的融合策略，该策略将输入从真实数学表达式平滑地切换到预测表达式。我们的伪对偶学习方案已经通过实证研究在几个代表性的 MWP 求解器中进行了测试并证明是有效的。

Self-Detoxifying Language Models via Toxification Reversal
Authors Chak Tou Leong, Yi Cheng, Jiashuo Wang, Jian Wang, Wenjie Li
语言模型解毒旨在最大限度地降低预训练语言模型 PLM 中生成攻击性或有害内容的风险，以实现更安全的部署。现有的方法可以大致分为基于微调和基于解码。然而，前者通常是资源密集型的，而后者则依赖于额外的组件，并可能会损害生成的流畅度。在本文中，我们提出了一种更轻量级的方法，使 PLM 本身能够实现自我解毒。我们的方法建立在以下观察基础上：预先添加负转向提示可以有效诱导 PLM 生成有毒内容。与此同时，我们受到可解释性领域最新研究的启发，该研究将 PLM 中不断演变的情境化表示形式表述为由注意力层促进的信息流。利用这个想法，我们设计了一种方法来识别从正常生成过程到用否定前缀提示的中毒方向，然后通过操纵注意层内的信息运动将生成引导到相反的方向。

Can Large Language Model Comprehend Ancient Chinese? A Preliminary Test on ACLUE
Authors Yixuan Zhang, Haonan Li
大型语言模型法学硕士展示了理解和生成语言的卓越能力。然而，他们理解古代语言，特别是古代汉语的能力，在很大程度上仍未得到探索。为了弥补这一差距，我们提出了 ACLUE，这是一个旨在评估语言模型理解古汉语能力的评估基准。 ACLUE 包含 15 项任务，涵盖一系列技能，涵盖语音、词汇、句法、语义、推理和知识。通过对八位最先进的法学硕士的评估，我们观察到他们在现代汉语和古代汉语之间的表现存在明显差异。在评估的模型中，ChatGLM2 表现最为出色，平均得分为 37.4。

CarExpert: Leveraging Large Language Models for In-Car Conversational Question Answering
Authors Md Rashad Al Hasan Rony, Christian Suess, Sinchana Ramakanth Bhat, Viju Sudhi, Julia Schneider, Maximilian Vogel, Roman Teucher, Ken E. Friedl, Soumya Sahoo
大型语言模型法学硕士通过遵循自然语言指令，无需在特定领域的任务和数据上进行微调，就表现出了卓越的性能。然而，利用法学硕士进行特定领域的问答会受到严重的限制。由于使用现成的训练数据收集时间、复杂的用户话语以及检索增强生成中的错误检索，生成的答案容易产生幻觉。此外，由于缺乏对领域和预期输出的认识，此类法学硕士可能会生成不适合目标领域的意外且不安全的答案。在本文中，我们提出了 CarExpert，这是一种汽车检索增强对话问答系统，利用法学硕士来完成不同的任务。具体来说，CarExpert 采用 LLM 来控制输入，向提取和生成回答组件提供特定于领域的文档，并控制输出以确保安全且特定于领域的答案。

Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model
Authors Haikang Deng, Colin Raffel
虽然大型语言模型已被证明在大量下游应用程序中有效，但它们经常生成有问题或缺乏所需属性的文本。在本文中，我们介绍了奖励增强解码 RAD，这是一种文本生成过程，它使用小型单向奖励模型来鼓励语言模型生成具有某些属性的文本。具体来说，RAD 使用奖励模型对生成的代进行评分，并重新调整采样概率以支持高奖励代币。通过使用单向奖励模型，RAD 可以缓存先前生成步骤的激活，以减少计算开销。通过生成无毒且情绪受控文本的实验，我们证明 RAD 在仅改变生成过程的方法中表现最佳，并且与涉及重新训练语言模型的最先进方法的性能相匹配。

Instruction Tuning with Human Curriculum
Authors Bruce W. Lee, Hyunsoo Cho, Kang Min Yoo
指令调整的主要范例是最大程度多样化的指令响应对的随机洗牌训练。本文探讨了在 ChatGPT 和 GPT 4 等当代大型语言模型中应用结构化认知学习方法进行指令调整的潜在好处。与之前的传统随机指令数据集不同，我们提出了一个高度结构化的合成数据集，它模仿了人文教育。我们通过将数据集与教育框架保持一致来管理数据集，并纳入元信息（包括每个样本的主题和认知严谨水平）。我们的数据集涵盖了从初中到研究生不同教育阶段的全面细粒度主题，每个主题都有各种问题，以使用布鲁姆分类法（区分每个概念的不同人类认知水平的分类框架）来增强概念深度。结果表明，与传统随机训练相比，这种认知严格训练方法在 MMLU 基准上显着提高了 3.06 的性能，在 AI2 Reasoning Challenge 硬集上额外提高了 1.28，同时避免了额外的计算成本。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com