【AI视野·今日NLP 自然语言处理论文速览第六十期】Mon, 23 Oct 2023_fast and accurate factual inconsistency detection -CSDN博客

AI视野·今日CS.NLP 自然语言处理论文速览
Mon, 23 Oct 2023 (showing first 100 of 108 entries)
Totally 100 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Exploring Linguistic Probes for Morphological Generalization
Authors Jordan Kodner, Salam Khalifa, Sarah Payne
现代关于形态变化的跨语言计算建模的工作通常采用与语言无关的数据分割算法。在本文中，我们用旨在测试形态概括的各个方面的语言特定探针来补充该方法。

Optimizing Retrieval-augmented Reader Models via Token Elimination
Authors Moshe Berchansky, Peter Izsak, Avi Caciularu, Ido Dagan, Moshe Wasserblat
Decoder FiD 中的 Fusion 是一种有效的检索增强语言模型，适用于各种开放域任务，例如问答、事实检查等。在 FiD 中，首先检索支持段落，然后使用生成模型 Reader 进行处理，这可能会导致解码时间的一个重大瓶颈，特别是在长输出的情况下。在这项工作中，我们分析了所有检索到的段落对阅读器模型性能的贡献和必要性，并建议在标记级别消除一些检索到的信息，这些信息可能不会为答案生成过程提供重要信息。

Improving Long-form Speech Translation through Segmentation with Large Language Models and Finite State Decoding Constraints
Authors Arya D. McCarthy, Hao Zhang, Shankar Kumar, Felix Stahlberg, Ke Wu
口语翻译面临的一项挑战是，大量口语内容都是长格式，但要获得高质量的翻译，需要短单元。为了解决这种不匹配问题，我们采用大型语言模型 LLM 将长 ASR 转录物分割成可以独立翻译的片段，从而最大限度地提高整体翻译质量。为了对抗法学硕士产生幻觉的倾向，我们在解码过程中加入有限状态约束以消除无效输出。我们发现法学硕士可以通过提示调整或微调来适应包含 ASR 错误的转录本。

Information Value: Measuring Utterance Predictability as Distance from Plausible Alternatives
Authors Mario Giulianelli, Sarenne Wallbridge, Raquel Fern ndez
我们提出信息价值，这是一种量化话语相对于一组看似合理的替代方案的可预测性的度量。我们引入了一种使用神经文本生成器获得可解释的信息价值估计的方法，并利用其心理测量预测能力来研究驱动人类理解行为的可预测性维度。

On Synthetic Data for Back Translation
Authors Jiahao Xu, Yubin Ruan, Wei Bi, Guoping Huang, Shuming Shi, Lihui Chen, Lemao Liu
反向翻译BT是NMT研究领域最重要的技术之一。现有的 BT 尝试有一个共同的特点，即采用波束搜索或随机采样来生成具有后向模型的合成数据，但很少研究合成数据在 BT 性能中的作用。这促使我们提出一个基本问题，即什么样的合成数据有助于 BT 性能。通过理论和实证研究，我们确定了控制反向翻译 NMT 性能的合成数据的两个关键因素，即质量和重要性。此外，根据我们的发现，我们提出了一种简单而有效的方法来生成合成数据，以更好地权衡这两个因素，从而为 BT 带来更好的性能。我们对 WMT14 DE EN、EN DE 和 RU EN 基准测试任务进行了大量实验。

StereoMap: Quantifying the Awareness of Human-like Stereotypes in Large Language Models
Authors Sullam Jeoung, Yubin Ge, Jana Diesner
据观察，大型语言模型法学硕士对训练数据中存在的有害关联进行编码并使其永久化。我们提出了一个名为 StereoMap 的理论框架，以深入了解他们对社会如何看待人口群体的看法。该框架以刻板印象内容模型 SCM 为基础，这是一种完善的心理学理论。根据 SCM 的说法，刻板印象并不完全相同。相反，温暖和能力的维度是描述刻板印象本质的因素。基于 SCM 理论，StereoMap 使用温暖和能力维度来映射法学硕士对由社会人口特征定义的社会群体的看法。此外，该框架还可以对法学硕士判断的关键词和推理语言进行调查，以揭示影响其看法的潜在因素。我们的结果表明，法学硕士对这些群体表现出各种各样的看法，其特点是在热情和能力方面的评价混合。此外，通过分析法学硕士的推理，我们的研究结果表明，法学硕士表现出对社会差异的认识，经常陈述统计数据和研究结果来支持他们的推理。

Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models
Authors Ruida Wang, Wangchunshu Zhou, Mrinmaya Sachan
数据合成是一种很有前途的方法，可以用很少的标记数据来训练小型模型。数据合成的一种方法是利用大型语言模型的丰富知识来合成小型模型的伪训练示例，从而可以同时实现数据和计算效率。然而，数据合成的一个关键挑战是合成的数据集通常与真实任务数据分布存在很大的分布差异。因此，在本文中，我们提出了 Synthesis Step by Step S3，这是一种数据合成框架，它通过使用大型语言模型在小型现实世界验证数据集上的合成数据集上迭代地推断小模型所产生的错误来缩小这种分布差距。对多个 NLP 任务的大量实验表明，我们的方法通过减少合成数据集和真实数据之间的差距，提高了小模型的性能，与几个基线相比有显着的改进，与 ZeroGen 相比提高了 9.48，与 GoldGen 相比提高了 2.73，并且

Explainability, Interpretability, Depression detection, Social Media
Authors Eliseo Bao Souto, Anxo P rez, Javier Parapar
社交平台的用户通常将这些网站视为发布心理健康问题的支持空间。这些对话包含有关个人健康风险的重要痕迹。最近，研究人员利用这些在线信息构建了心理健康检测模型，旨在识别 Twitter、Reddit 或 Facebook 等平台上存在风险的用户。这些模型大多数都以实现良好的分类结果为中心，而忽略了决策的可解释性和可解释性。最近的研究指出了使用临床标记（例如使用症状）来提高卫生专业人员对计算模型的信任的重要性。在本文中，我们建议使用基于变压器的架构来检测和解释用户著作中抑郁症状标记的出现。我们提出了两种方法：训练模型进行分类，另一种方法分别解释分类器的决策，并使用单个模型同时统一这两个任务。此外，对于后一种方式，我们还研究了最近的会话式法学硕士在上下文学习中的表现。我们的自然语言解释使临床医生能够根据经过验证的症状解释模型决策，从而增强对自动化过程的信任。我们使用最新的基于症状的数据集来评估我们的方法，采用离线和专家循环指标来评估我们的模型生成的解释的质量。

Arabic Dialect Identification under Scrutiny: Limitations of Single-label Classification
Authors Amr Keleg, Walid Magdy
自动阿拉伯语方言识别文本 ADI 自从 2010 年代初推出以来就广受欢迎。开发了多个数据集，并且自 2018 年以来一直在运行年度共享任务。然而，据报道，ADI 系统无法区分阿拉伯语的微方言。我们认为，目前采用的 ADI 任务框架作为单个标签分类问题是其主要原因之一。我们强调了方言标签不完整性的局限性，并演示了它如何影响 ADI 系统的评估。由 7 名不同阿拉伯方言的母语人士对 ADI 预测进行的手动误差分析显示，大约 66 个已验证的错误不是真正的错误。

Benchmarking and Improving Text-to-SQL Generation under Ambiguity
Authors Adithya Bhaskar, Tushar Tomar, Ashutosh Sathe, Sunita Sarawagi
文本到 SQL 转换的研究主要针对数据集进行基准测试，其中每个文本查询对应一个正确的 SQL。然而，由于重叠的模式名称和多个令人困惑的关系路径，对现实生活数据库的自然语言查询经常涉及到预期 SQL 的显着模糊性。

BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues
Authors Haodong Duan, Jueqi Wei, Chonghua Wang, Hongwei Liu, Yixiao Fang, Songyang Zhang, Dahua Lin, Kai Chen
通过高质量的多轮对话与人类互动是大型语言模型法学硕士的一个关键特征。然而，对这种能力的基于人的评估涉及密集的体力劳动。本报告通过基于法学硕士的方法，对现有的人类风格多轮聊天大型语言模型进行了初步评估。我们从现实世界的人类对话开始，并将最初的话语保留为 ChatSEED。然后，我们提示法学硕士基于 ChatSEED，逐个话语生成完整的多轮对话，包含数十个话语。最后，我们采用最先进的LLMs GPT 4等作为评判来评估生成的对话。通过不同的评估方案，我们得出了基本相同的结论。我们发现 GPT 4 可以生成具有令人印象深刻的质量的人性化多轮对话，显着优于其同行。鉴别器很难区分 GPT 4 生成的对话和人类对话。相比之下，其他法学硕士由于指令遵循能力差、倾向于生成冗长的话语或一般能力有限，因此很难生成质量令人满意的多轮对话。

Bridging Information-Theoretic and Geometric Compression in Language Models
Authors Emily Cheng, Corentin Kervadec, Marco Baroni
为了使语言模型 LM 能够忠实地模拟人类语言，它必须将大量的、可能无限的信息压缩到相对较少的维度中。我们建议从几何和信息论两个角度分析预训练的 LM 中的压缩。我们证明这两个视图是高度相关的，因此语言数据的内在几何维度可以预测它们在 LM 下的编码长度。然后我们证明，反过来，语言数据集的高度压缩可以预测对该数据集的快速适应，从而证实能够压缩语言信息是成功的 LM 性能的重要组成部分。

Semi-supervised multimodal coreference resolution in image narrations
Authors Arushi Goel, Basura Fernando, Frank Keller, Hakan Bilen
在本文中，我们研究多模态共指消解，特别是较长的描述性文本（即叙述与图像配对）的情况。由于细粒度的图像文本对齐、叙事语言中固有的歧义以及大型注释训练集的不可用，这带来了重大挑战。为了应对这些挑战，我们提出了一种数据高效的半监督方法，该方法利用图像叙述对来解决多模态背景下的共指和叙述基础。我们的方法在跨模式框架内纳入了标记和未标记数据的损失。

Three Questions Concerning the Use of Large Language Models to Facilitate Mathematics Learning
Authors An Zi Yen, Wei Ling Hsu
由于大型语言模型法学硕士卓越的语言理解和生成能力，它们在教育应用中的使用已被探索。然而，关于法学硕士帮助学生学习数学的教学能力的调查工作却很少。在这篇立场文件中，我们讨论了利用法学硕士通过提供适应性反馈来提高学生数学问题解决技能所面临的挑战。除了产生错误的推理过程之外，法学硕士还可能会误解问题的含义，并且在尝试纠正学生答案时也难以理解给定问题的基本原理。

Hunayn: Elevating Translation Beyond the Literal
Authors Nasser Almousa, Nasser Alzamil, Abdullah Alshehri, Ahmad Sait
该项目推出了超越传统工具的高级英语到阿拉伯语翻译器。利用赫尔辛基转换器 MarianMT ，我们的方法涉及对自我抓取的纯文学阿拉伯语数据集进行微调。针对谷歌翻译的评估显示，其在定性评估方面始终表现出色。值得注意的是，它在文化敏感性和上下文准确性方面表现出色。

Make Your Decision Convincing! A Unified Two-Stage Framework: Self-Attribution and Decision-Making
Authors Yanrui Du, Sendong Zhao, Haochun Wang, Yuhan Chen, Rui Bai, Zewen Qiang, Muzhen Cai, Bing Qin
用自然语言解释黑盒模型行为在各种 NLP 任务中取得了令人印象深刻的成果。最近的研究探索了利用输入文本中的子序列作为基本原理，为用户提供支持模型决策的证据。尽管现有框架擅长生成高质量的基本原理，同时实现高任务性能，但它们忽略了生成的基本原理和模型决策之间不可靠的联系。简而言之，模型可能会在归因错误的理由时做出正确的决策，或者在归因正确的理由时做出错误的决策。为了缓解这个问题，我们提出了一个统一的两阶段框架，称为自我归因和决策 SADM。通过对 ERASER 基准的五个推理数据集进行广泛的实验，我们证明我们的框架不仅在生成的基本原理和模型决策之间建立了更可靠的联系，而且在任务性能和基本原理的质量方面取得了有竞争力的结果。

MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection Benchmark
Authors Dominik Macko, Robert Moro, Adaku Uchendu, Jason Samuel Lucas, Michiharu Yamashita, Mat Pikuliak, Ivan Srba, Thai Le, Dongwon Lee, Jakub Simko, Maria Bielikova
目前缺乏对最近法学硕士以英语以外的语言生成令人信服的文本的能力以及多语言环境中机器生成文本检测器性能的研究。这也反映在可用的基准中，这些基准缺乏英语以外的语言的真实文本，并且主要涵盖较旧的生成器。为了填补这一空白，我们引入了 MULTITuDE，这是一个用于多语言机器生成文本检测的新型基准数据集，包含 11 种语言 ar、ca、cs、de、en、es、nl、pt、ru、uk 的 74,081 个真实的机器生成文本，和 zh 由 8 位多语言法学硕士生成。使用这个基准，我们比较了零样本统计和黑盒以及微调检测器的性能。

MarineGPT: Unlocking Secrets of Ocean to the Public
Authors Ziqiang Zheng, Jipeng Zhang, Tuan Anh Vu, Shizhe Diao, Yue Him Wong Tim, Sai Kit Yeung
大型语言模型 LLM（例如 ChatGPT GPT 4）已被证明是提升 AI 助手用户体验的强大工具。持续的工作提出了多模态大语言模型 MLLM，使 LLM 能够通过构建联合语义空间来感知多种模态输入。视觉文本空间。尽管法学硕士和 MLLM 取得了重大成功，但在需要特定领域知识和专业知识的特定领域应用中探索法学硕士和 MLLM 的情况却很少，特别是对于 textbf 海洋领域。与通用 MLLM 不同，海洋专用 MLLM 需要产生更多的文本敏感、文本信息丰富和科学响应。在这项工作中，我们证明了现有的 MLLM 在大量现成的通用训练数据上进行了优化，显示出理解领域特定意图并生成信息丰富且令人满意的响应的最低能力。为了解决这些问题，我们提出了textbf MarineGPT，这是第一个专为海洋领域设计的视觉语言模型，向公众解开海洋的秘密。我们展示了包含超过 500 万个海洋图像文本对的 textbf Marine 5M 数据集，将特定领域的海洋知识注入到我们的模型中，并实现更好的海洋视觉和语言对齐。我们的 MarineGPT 不仅将海洋理解的界限推向了公众，而且还提供了一个标准协议，使通用助手适应下游领域的特定专家。

Simultaneous Machine Translation with Tailored Reference
Authors Shoutao Guo, Shaolei Zhang, Yang Feng
同步机器翻译 SiMT 在阅读整个源句子的同时生成翻译。然而，现有的 SiMT 模型通常使用相同的参考进行训练，而忽略不同延迟下可用源信息量的变化。在低延迟时使用真实数据训练模型可能会引入强制预期，而在高延迟时使用与源词序一致的参考会导致性能下降。因此，利用适当的参考来训练 SiMT 模型至关重要，这样可以避免训练过程中的强制预期，同时保持高质量。在本文中，我们提出了一种新颖的方法，通过重新表述基本事实，为在不同延迟下训练的 SiMT 模型提供量身定制的参考。具体来说，我们引入了由强化学习诱导的裁缝，将基本事实修改为定制的参考。 SiMT模型使用定制参考进行训练，并与裁缝共同优化以提高性能。重要的是，我们的方法适用于当前的各种 SiMT 方法。

Improving Cross-Lingual Transfer through Subtree-Aware Word Reordering
Authors Ofir Arviv, Dmitry Nikolaev, Taelin Karidi, Omri Abend
尽管 XLM R 和 mT5 等多语言语言模型的能力取得了令人瞩目的增长，但事实证明，它们在处理类型上相距较远的语言时仍然面临困难，特别是在资源匮乏的情况下。有效跨语言迁移的障碍之一是词序模式的可变性。它可以通过源或目标边词重新排序来潜在地缓解，并且已经提出了多种重新排序方法。然而，它们依赖于特定于语言的规则，在词性标签级别上工作，或者仅针对主子句，而使从属子句保持不变。为了解决这些限制，我们提出了一种新的强大的重新排序方法，该方法根据通用依赖关系定义，能够从少量注释数据中学习以句法上下文为条件的细粒度词序模式，并且可以应用于所有级别句法树。我们对不同的任务集进行了实验，并表明我们的方法在不同的语言对和模型架构上始终优于强大的基线。

Semantic Decomposition of Question and SQL for Text-to-SQL Parsing
Authors Ben Eyal, Amir Bachar, Ophir Haroche, Moran Mahabi, Michael Elhadad
文本到 SQL 语义解析面临泛化到跨域和复杂查询的挑战。最近的研究采用了问题分解策略来增强复杂 SQL 查询的解析。然而，这种策略遇到了两个主要障碍：1.现有数据集缺乏问题分解；2.由于 SQL 语法的复杂性，大多数复杂的查询无法分解为可以轻松重构的子查询。为了应对这些挑战，我们提出了一种新的模块化查询计划语言 QPL，它将 SQL 查询系统地分解为简单且常规的子查询。我们利用 SQL Server 查询优化计划的分析开发了从 SQL 到 QPL 的转换器，并使用 QPL 程序增强了 Spider 数据集。实验结果表明，QPL 的模块化特性有利于现有的语义解析架构，并且对于语义等效查询，训练文本到 QPL 解析器比文本到 SQL 解析更有效。 QPL 方法提供了两个额外的优势 1 QPL 程