【AI视野·今日NLP 自然语言处理论文速览第二十三期】Tue, 28 Sep 2021

本文链接：https://blog.csdn.net/u014636245/article/details/120532118

本文探讨了利用语音停顿信息改进机器学习对话理解任务的准确性，通过实证分析显示停顿在多令牌实体识别中的重要作用。同时，提出使用停顿时长丰富上下文表示以优化实体解析。研究还关注了语音识别在孟加拉语等低资源语言中的挑战与进展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AI视野·今日CS.NLP 自然语言处理论文速览
Tue, 28 Sep 2021
Totally 84 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Using Pause Information for More Accurate Entity Recognition
Authors Sahas Dendukuri, Pooja Chitkara, Joel Ruben Antony Moniz, Xiao Yang, Manos Tsagkias, Stephen Pulman
人机对话中的实体标签是对话助手中自然语言理解 NLU 任务不可或缺的一部分。然而，当前的系统难以仅使用典型的文本输入来准确解析语音查询，并且经常无法理解用户意图。先前的语言学工作已经确定了与动词相比，名词周围有更长的语音停顿的跨语言趋势。我们证明了对停顿的语言观察可用于提高机器学习语言理解任务的准确性。对来自商业语音助手的法语和英语话语的停顿分析显示，与实体跨度内相比，多令牌实体跨度边界周围的停顿持续时间存在统计学上的显着差异。此外，与基于文本的 NLU 相比，我们应用暂停持续时间来丰富上下文嵌入以改进实体的浅层解析。

Challenges and Opportunities of Speech Recognition for Bengali Language
Authors M. F. Mridha, Abu Quwsar Ohi, Md. Abdul Hamid, Muhammad Mostafa Monowar
语音识别是一个引人入胜的过程，它提供了在人机交互领域与机器交互和指挥机器的机会。语音识别是直接基于任何语言的语言和文本属性构建的语言相关系统。自动语音识别 ASR 系统目前正被用于将语音完美地翻译成文本。尽管 ASR 系统正在以国际语言执行，但以孟加拉语实现的 ASR 系统尚未达到可接受的状态。在这项研究工作中，我们孜孜不倦地披露了孟加拉语 ASR 系统研究工作的现状。在下文中，我们了解在构建孟加拉语 ASR 系统时主要遇到的挑战。我们将挑战分为依赖于语言的挑战和独立于语言的挑战，并指导如何彻底检查特定的复杂性。

FQuAD2.0: French Question Answering and knowing that you know nothing
Authors Quentin Heinrich, Gautier Viaud, Wacim Belblidia
问答，包括阅读理解，是在过去几年中取得重大科学突破的 NLP 研究领域之一，这要归功于语言建模的伴随进步。然而，大多数这些突破都集中在英语上。 2020 年，作为第一个缩小与法语差距的有力举措，Illuin Technology 推出了 FQuAD1.1，这是一个法语母语阅读理解数据集，由从维基百科文章中提取的 60,000 个问答样本组成。尽管如此，在这个数据集上训练的问答模型有一个主要缺点，它们无法预测给定问题在感兴趣的段落中没有答案，因此在各种工业用例中做出不可靠的预测。在目前的工作中，我们引入了 FQuAD2.0，它扩展了 FQuAD 的 17,000 个无法回答的问题，并进行了对抗性注释，以类似于可回答的问题。这个新数据集总共包含近 80,000 个问题，可以训练法语问答模型，使其能够区分无法回答的问题和可回答的问题。

Discovering Drug-Target Interaction Knowledge from Biomedical Literature
Authors Yutai Hou, Yingce Xia, Lijun Wu, Shufang Xie, Yang Fan, Jinhua Zhu, Wanxiang Che, Tao Qin, Tie Yan Liu
人体中药物与靶标的相互作用 DTI 在生物医学科学和应用中起着至关重要的作用。随着生物医学领域每年发表数百万篇论文，从生物医学文献中自动发现 DTI 知识，这些文献通常是关于药物、靶点及其相互作用的三元组，成为行业的迫切需求。现有的发现生物知识的方法主要是提取方法，通常需要详细的注释，例如生物实体的所有提及、每两个实体提及之间的关系等。然而，由于需要来自生物医学领域的专家知识，获得足够的注释既困难又昂贵。为了克服这些困难，我们通过使用生成方法探索此任务的第一个端到端解决方案。我们将 DTI 三元组视为一个序列，并使用基于 Transformer 的模型直接生成它们，而无需使用实体和关系的详细注释。此外，我们提出了一种半监督方法，它利用上述端到端模型来过滤未标记的文献并对其进行标记。实验结果表明，我们的方法在 DTI 发现方面明显优于提取基线。

Knowledge-Aware Neural Networks for Medical Forum Question Classification
Authors Soumyadeep Roy, Sudip Chakraborty, Aishik Mandal, Gunjan Balde, Prakhar Sharma, Anandhavelu Natarajan, Megha Khosla, Shamik Sural, Niloy Ganguly
在线医疗论坛已成为回答消费者健康相关信息需求的主要平台。然而，随着查询数量的显着增加和专家的有限可用性，有必要根据消费者的意图对医疗查询进行自动分类，以便将这些问题引导至正确的医学专家集合。在这里，我们开发了一种新的基于医学知识感知 BERT 的模型 MedBERT，它明确地赋予医学概念词更多的权重，并利用从流行医学知识库中获得的特定领域的辅助信息。我们还为医学论坛问题分类 MFQC 任务贡献了一个多标签数据集。

Mitigating Racial Biases in Toxic Language Detection with an Equity-Based Ensemble Framework
Authors Matan Halevy, Camille Harris, Amy Bruckman, Diyi Yang, Ayanna Howard
最近的研究表明，在流行的有毒语言数据集中如何存在针对编写非裔美国英语的用户的种族偏见。虽然之前的工作专注于单一的公平标准，但我们建议使用额外的描述性公平指标来更好地理解这些偏见的来源。我们证明了不同的基准分类器，以及两个过程中的偏见修复技术，即使在更大的语料库中也会传播种族偏见。然后，我们提出了一种新颖的集成框架，该框架使用专门针对非裔美国英语方言进行微调的分类器。我们表明，我们提出的框架大大减少了模型从这些数据集中学习的种族偏见。

Automatic Generation of Word Problems for Academic Education via Natural Language Processing (NLP)
Authors Stanley Uros Keller
数字学习平台使学生能够按照灵活和个性化的时间表学习，并提供即时反馈机制。 STEM教育领域要求学生解决大量的训练练习，以掌握基本概念。显然，当前的在线教育在锻炼多样性和个性化方面存在限制。许多练习在结构和内容上几乎没有变化，阻碍了学生对抽象能力的采用。本论文提出了一种生成多样化、上下文丰富的单词问题的方法。除了要求生成的语言在语法上是正确的，单词问题的性质意味着对内容有效性的额外限制。所提出的方法被证明可以有效地为数理统计生成有效的单词问题。实验结果显示了生成时间和锻炼有效性之间的权衡。

Recall and Learn: A Memory-augmented Solver for Math Word Problems
Authors Shifeng Huang, Jiawei Wang, Jiao Xu, Da Cao, Ming Yang
在本文中，我们解决数学单词问题，即根据其文本描述自动回答数学问题。尽管最近的方法已经证明了它们有希望的结果，但这些方法中的大多数都基于基于模板的生成方案，这导致泛化能力有限。为此，我们以回忆和学习的方式提出了一种新颖的类比学习方法。我们提出的框架由记忆、表示、类比和推理模块组成，旨在通过参考过去学到的练习进行新的练习。具体来说，给定一个数学单词问题，该模型首先通过内存模块检索相似的问题，然后使用表示模块对未解决的问题和每个检索到的问题进行编码。此外，为了以类比的方式解决问题，提出了类比模块和具有复制机制的推理模块来对问题与每个检索到的问题之间的相互关系进行建模。

Does referent predictability affect the choice of referential form? A computational approach using masked coreference resolution
Authors Laura Aina, Xixian Liao, Gemma Boleda, Matthijs Westera
人们经常假设说话者的意思中更可预测的部分往往不那么明确，例如使用更短、信息量更少的词。在参考表达领域研究这些动态已被证明是困难的，现有的研究，包括心理语言学和语料库，提供了相互矛盾的结果。我们测试了这样一个假设，即当上下文对所指对象的信息更多时，说话者会产生较少信息的指称表达，例如代词与完整的名词短语，使用指称可预测性的新计算估计。我们获得了这些估计，在一项新任务上训练了一个现有的英语共指解析系统，即掩码共指解析，为我们提供了一个以上下文而不是指代表达为条件的所指对象的概率分布。由此产生的系统保留了标准的共指解析性能，同时比以前的尝试更好地估计了人类衍生的指代可预测性。

Towards Reinforcement Learning for Pivot-based Neural Machine Translation with Non-autoregressive Transformer
Authors Evgeniia Tokarchuk, Jan Rosendahl, Weiyue Wang, Pavel Petrushkov, Tomer Lancewicki, Shahram Khadivi, Hermann Ney
基于枢轴的神经机器翻译 NMT 通常用于低资源设置，特别是用于非英语语言对之间的翻译。它受益于使用高资源源支点和支点目标语言对，并且针对这两个子任务训练单个系统。然而，这些模型在训练期间没有任何联系，并且源数据透视模型没有被优化以产生源目标任务的最佳翻译。在这项工作中，我们建议使用强化学习 RL 方法训练基于枢轴的 NMT 系统，该方法已针对各种文本生成任务进行了研究，包括机器翻译 MT。

Automated Mining of Leaderboards for Empirical AI Research
Authors Salomon Kabongo, Jennifer D Souza, S ren Auer
随着研究出版物的快速增长，赋予科学家对科学进步的监督权至关重要。在这方面，信息组织的排行榜方面通过汇总解决同一研究挑战的各种研究的实证结果，提供了对最新技术的概述。 PapersWithCode 等众包工作致力于为人工智能中的各种子域构建排行榜。排行榜提供了机器可读的学术知识，已被证明对科学家跟踪研究进展直接有用。

Contextual Fine-to-Coarse Distillation for Coarse-grained Response Selection in Open-Domain Conversations
Authors Wei Chen, Yeyun Gong, Can Xu, Huang Hu, Bolun Yao, Zhongyu Wei, Zhihao Fan, Xiaowu Hu, Bartuer Zhou, Biao Cheng, Daxin Jiang, Nan Duan
我们研究了基于检索的对话系统中粗粒度响应选择的问题。这个问题与细粒度响应选择同样重要，但在现有文献中探索较少。在本文中，我们提出了一种上下文精细到粗 CFC 蒸馏模型，用于开放域对话中的粗粒度响应选择。在我们的 CFC 模型中，基于多塔架构学习了查询、候选响应和相应上下文的密集表示，并将从细粒度的单塔架构中学到的更多表达知识提炼到粗粒度的多塔架构中以提高性能猎犬。为了评估我们提出的模型的性能，我们基于 Reddit 评论转储和 Twitter 语料库构建了两个新数据集。

Improving Stack Overflow question title generation with copying enhanced CodeBERT model and bi-modal information
Authors Fengji Zhang, Jacky Keung, Xiao Yu, Zhiwen Xie, Zhen Yang, Caoyuan Ma, Zhimin Zhang
Context Stack Overflow 对于寻求编程问题答案的软件开发人员非常有帮助。先前的研究表明，越来越多的问题质量低下，因此从潜在回答者那里得到的关注较少。高等人。提出了一个基于 LSTM 的模型，即 BiLSTM CC，从代码片段中自动生成问题标题，以提高问题质量。然而，仅使用问题正文中的代码片段无法为标题生成提供足够的信息，并且 LSTM 无法捕获令牌之间的长距离依赖关系。目标我们提出CCBERT，一种基于深度学习的新颖模型，通过充分利用整个问题主体的双模态信息来提高问题标题生成的性能。方法 CCBERT 遵循编码器解码器范式，使用 CodeBERT 将问题主体编码为隐藏表示，使用堆叠的 Transformer 解码器生成预测标记，并使用额外的复制注意层来细化输出分布。编码器和解码器都执行多头自注意力操作以更好地捕获远程依赖关系。我们构建了一个包含超过 120,000 个高质量问题的数据集，这些问题是从 Stack Overflow 官方发布的数据中筛选出来的，以验证 CCBERT 模型的有效性。结果 CCBERT 在数据集上取得了更好的性能，尤其是比 BiLSTM CC 和多用途预训练模型 BART 平均分别高出 14 和 4。

Controllable Neural Dialogue Summarization with Personal Named Entity Planning
Authors Zhengyuan Liu, Nancy F. Chen
在本文中，我们提出了一种可控的神经生成框架，该框架可以通过个人命名实体规划灵活地指导对话摘要。条件序列被调制以决定在形成摘要以解决摘要任务中的欠约束问题时要关注什么类型的信息或什么观点。该框架支持两种类型的用例 1 综合视角，这是一个没有指定用户偏好的通用案例，考虑来自所有对话对话者和所有提到的人的摘要点 2 焦点视角，基于用户指定的个人命名实体定位摘要，这可能是对话者之一或对话中提到的人之一。在训练期间，我们利用个人命名实体的发生规划和共指信息来提高时间一致性并最大限度地减少神经生成中的幻觉。

Multi-Task and Multi-Corpora Training Strategies to Enhance Argumentative Sentence Linking Performance
Authors Jan Wira Gotama Putra, Simone Teufel, Takenobu Tokunaga
论证结构预测旨在建立文本单元之间的链接并标记它们之间的关系，为给定的输入文本形成结构化的表示。前一项任务，链接，已被早期的工作认为特别具有挑战性，因为它需要从可能的链接组合的非常大的搜索空间中找到最合适的结构。在本文中，我们通过使用多任务和多语料库训练策略改进了最先进的链接模型。我们的辅助任务帮助模型学习每个句子在论证结构中的作用。将多语料库训练与选择性采样策略相结合，可以增加训练数据的大小，同时确保模型仍能很好地学习所需的目标分布。

Prefix-to-SQL: Text-to-SQL Generation from Incomplete User Questions
Authors Naihao Deng, Shuaichen Chang, Peng Shi, Tao Yu, Rui Zhang
SQL 研究的现有文本仅将完整的问题视为输入，但外行用户可能会努力制定完整的问题。为了为数据库系统 NLIDB 构建一个更智能的自然语言接口，该接口也处理不完整的问题，我们提出了一个新任务，SQL 前缀，它将用户的问题前缀作为输入并预测预期的 SQL。我们构建了一个名为 PAGSAS 的新基准，其中包含 124K 用户问题前缀和 5 个子任务 Advising、GeoQuery、Scholar、ATIS 和 Spider 的预期 SQL。此外，我们提出了一个新的指标 SAVE 来衡量用户可以节省多少精力。实验结果表明，即使对于 T5 等强基线模型，PAGSAS 也具有挑战性。由于我们观察到 SQL 前缀的难度与省略标记的数量有关，因此我们将提供示例的课程学习与越来越多的省略标记结合起来。

Trans-Encoder: Unsupervised sentence-pair modelling through self- and mutual-distillations
Authors Fangyu Liu, Serhii Havrylov, Yunlong Jiao, Jordan Massiah, Emine Yilmaz
在 NLP 中，大量任务涉及两个序列之间的成对比较，例如句子相似性和释义识别。主要有两种公式用于句子对任务双编码器和交叉编码器。 Bi 编码器产生固定维度的句子表示并且计算效率高，但是，它们的性能通常不如交叉编码器。交叉编码器可以利用它们的注意力头来利用句间交互以获得更好的性能，但它们需要任务微调并且计算成本更高。在本文中，我们提出了一个完全无监督的句子表示模型，称为 Trans Encoder，它将两种学习范式结合到一个迭代联合框架中，以同时学习增强型 bi 和 cross 编码器。具体来说，在预训练的语言模型 PLM 之上，我们首先将其转换为无监督的双向编码器，然后在双向和交叉编码器任务公式之间交替。在每次交替中，一个任务公式将产生伪标签，用作另一个任务公式的学习信号。然后，我们提出了一个扩展，在多个 PLM 上并行进行这种自蒸馏方法，并使用它们的伪标签的平均值进行相互蒸馏。据我们所知，Trans Encoder 创建了第一个完全无监督的交叉编码器，也是最先进的无监督双编码器，用于句子相似性。

Language Invariant Properties in Natural Language Processing
Authors Federico Bianchi, Debora Nozza, Dirk Hovy
意义是依赖于上下文的，但是即使我们改变了上下文，语言的许多属性也应该保持不变。例如，文本的翻译和原文中的情感、蕴涵或说话者属性应该相同。我们引入了语言不变属性，即在我们转换文本时不应改变的属性，以及如何使用它们来定量评估转换算法的鲁棒性。我们使用翻译和释义作为转换示例，但我们的发现更广泛地适用于任何转换。我们的结果表明，许多 NLP 转换会改变作者特征等属性，即让他们听起来更男性化。我们相信研究这些特性将使 NLP 能够解决语言的社会因素和语用方面的问题。

Patterns of Lexical Ambiguity in Contextualised Language Models
Authors Janosch HaberandMassimo Poesio
语境化语言模型的核心方面之一是它们应该能够通过语境区分词汇歧义词的含义。在本文中，我们调查了显示多重意义的词形式的上下文嵌入在多大程度上反映了多义词和同音词的传统区别。为此，我们引入了一个扩展的、人工注释的分级词义相似性和共谓词可接受性数据集，并评估嵌入的相似性预测意义相似性的程度。两种类型的人类判断都表明，多义解释的相似性属于意义同一性和同音性之间的连续体。然而，我们也观察到多义词相似性评级的显着差异，为不同类型的多义词意义交替形成一致的模式。因此，我们的数据集似乎捕获了词汇歧义复杂性的很大一部分，并且可以为上下文嵌入提供一个现实的测试平台。在经过测试的模型中，BERT Large 与收集到的词义相似性评级的相关性最强，但难以一致地复制观察到的相似性模式。

Every time I fire a conversational designer, the performance of the dialog system goes down
Authors Giancarlo A. Xompero, Michele Mastromattei, Samir Salman, Cristina Giannone, Andrea Favalli, Raniero Romagnoli, Fabio Massimo Zanzotto
将显式领域知识纳入基于神经的面向任务的对话系统是减少对大量带注释对话的需求的有效方法。在本文中，我们研究了对话设计师显式领域知识的使用如何影响基于神经的对话系统的性能。为了支持这项研究，我们提出了神经网络系统 CLINN 中的会话逻辑注入，其中显性知识以半逻辑规则编码。通过使用 CLINN，我们评估了由不同技能的对话设计师团队制定的半逻辑规则。我们对 MultiWOZ 数据集的 Restaurant 主题进行了试验。结果表明，外部知识对于减少对话系统对带注释示例的需求极为重要。

An Enhanced Span-based Decomposition Method for Few-Shot Sequence Labeling
Authors Peiyi Wang, Runxin Xu, Tianyu Liu, Qingyu Zhou, Yunbo Cao, Baobao Chang, Zhifang Sui
少镜头序列标记 FSSL 是标记模型在新兴的、资源稀缺的领域进行泛化的规范解决方案。在本文中，我们提出了 ESD，一种基于增强跨度的分解方法，它遵循 FSSL 的基于度量的元学习范式。 ESD 从两个角度改进了以前的方法 a 引入了最佳跨度分解框架。我们将 FSSL 表述为一个优化问题，它寻求测试查询和支持实例之间的最佳跨度匹配。在推理过程中，我们提出了一种后处理算法，通过解决跨度冲突来减轻误报。 b 增强跨度和类原型的表示。我们通过跨跨度注意细化跨度表示，并通过多实例学习获得类原型表示。为了避免表示 O 类型而不是特定实体或插槽原型时的语义漂移，我们根据 O 类型跨度的边界信息将其分为三类。

Context-guided Triple Matching for Multiple Choice Question Answering
Authors Xun Yao, Junlong Ma, Xinrong Hu, Junping Liu, Jie Yang, Wanqing Li
MCQA 的多项选择题回答任务是指通过估计段落、问题和答案三元组之间的匹配分数，从多个候选中找出合适的答案。尽管在这方面有普遍的研究兴趣，但现有方法将该过程分解为几个成对或双重匹配步骤，这限制了评估具有多个证据句子的案例的能力。为了缓解这个问题，本文引入了一种新颖的上下文引导三重匹配算法，该算法通过集成三重匹配 TM 模块和对比正则化 CR 来实现。前者旨在从三元组中枚举一个组件作为背景上下文，并估计其与其他两个的语义匹配。此外，进一步提出了对比项来捕捉正确答案和分散注意力的答案之间的差异。

Overview of the CLEF--2021 CheckThat! Lab on Detecting Check-Worthy Claims, Previously Fact-Checked Claims, and Fake News
Authors Preslav Nakov, Giovanni Da San Martino, Tamer Elsayed, Alberto Barr n Cede o, Rub n M guez, Shaden Shaar, Firoj Alam, Fatima Haouari, Maram Hasanain, Watheq Mansour, Bayan Hamdan, Zien Sheikh Ali, Nikolay Babulkov, Alex Nikolov, Gautam Kishore Shahi, Julia Maria Stru , Thomas Mandl, Mucahid Kutlu, Yavuz Selim Kartal
我们描述了 CheckThat Lab 的第四版，它是 2021 年评估论坛 CLEF 会议和实验室的一部分。该实验室评估与事实相关的技术支持任务，涵盖阿拉伯语、保加利亚语、英语、西班牙语和土耳其语。任务 1 要求预测 Twitter 流中哪些帖子值得事实检查，重点关注所有五种语言的 COVID 19 和政治。任务 2 要求确定推文中的声明是否可以使用一组之前经过事实检查的阿拉伯语和英语声明进行验证。任务 3 要求预测英文新闻文章及其主题域的真实性。评估基于排序任务的平均精度或等级 k 的精度，以及分类任务的宏 F1。就球队注册 132 支球队而言，这是 CLEF 2021 实验室中最受欢迎的。

Findings of the NLP4IF-2021 Shared Tasks on Fighting the COVID-19 Infodemic and Censorship Detection
Authors Shaden Shaar, Firoj Alam, Giovanni Da San Martino, Alex Nikolov, Wajdi Zaghouani, Preslav Nakov, Anna Feldman
我们介绍了 NLP4IF 2021 共享任务的结果和主要发现。任务 1 的重点是对抗社交媒体中的 COVID 19 信息流行病，它以阿拉伯语、保加利亚语和英语提供。给定一条推文，它要求预测该推文是否包含可验证的声明，如果是，它是否可能是虚假的，是否具有普遍意义，是否可能有害，是否也值得手动进行事实检查，是否对社会有害，是否需要决策者的关注。任务 2 侧重于审查检测，并以中文提供。一共10个团队提交了任务1的系统，一个团队参与了任务2，9个团队也提交了系统描述文件。在这里，我们介绍任务，分析结果，并讨论系统提交及其使用的方法。大多数提交在几个基线上取得了相当大的改进，最好的系统使用了预先训练好的 Transformer 和集成。

Challenging the Semi-Supervised VAE Framework for Text Classification
Authors Ghazi Felhi, Joseph Le Roux, Djam Seddah
半监督变分自编码器 SSVAE 是广泛用于数据高效学习的模型。在本文中，我们质疑用于文本分类任务的序列 SSVAE 的标准设计的充分性，因为我们展示了两个过度复杂性的来源，我们提供了简化。这些对 SSVAE 的简化保留了它们的理论合理性，同时在半监督设置中提供了许多实际优势，其中训练结果是文本分类器。这些简化是从其目标中去除 Kullback Liebler 散度和从其概率模型中完全未观察到的潜在变量。这些变化使用户不必为他们的潜在变量选择先验，使模型更小更快，并允许信息更好地流入潜在变量。我们在 4 个文本分类任务上将简化版本与标准 SSVAE 进行比较。除了上述简化之外，实验表明速度提高了 26 ，同时保持了相同的分类分数。

Pragmatic competence of pre-trained language models through the lens of discourse connectives
Authors Lalchand Pandia, Yan Cong, Allyson Ettinger
随着预训练语言模型 LM 继续主导 NLP，我们了解这些模型中语言能力的深度变得越来越重要。在本文中，我们针对预训练的 LM 在语用方面的能力，重点关注与语篇连接词相关的语用学。我们使用自然发生的数据和从心理语言学中提取的受控输入的组合来制定完形填空式测试。我们专注于测试模型使用语用线索预测话语连接词的能力，模型理解与连接词相关的含义的能力，以及模型对连接词时间动态显示人类偏好的程度。我们发现，虽然模型在自然发生的数据的上下文中相当好地预测连接词，但当我们控制上下文以隔离高级语用线索时，模型敏感性要低得多。模型也没有表现出实质性的类人时间偏好。

Integrated Training for Sequence-to-Sequence Models Using Non-Autoregressive Transformer
Authors Evgeniia Tokarchuk, Jan Rosendahl, Weiyue Wang, Pavel Petrushkov, Tomer Lancewicki, Shahram Khadivi, Hermann Ney
复杂的自然语言应用程序，例如语音翻译或枢轴翻译，传统上依赖于级联模型。然而，众所周知，级联模型容易出现错误传播和模型差异问题。此外，在传统的级联系统中不可能使用端到端的训练数据，这意味着无法使用最适合该任务的训练数据。之前的研究提出了几种集成端到端训练的方法来克服这些问题，但它们主要依赖于合成或自然的三向数据。我们提出了一个基于非自回归 Transformer 的级联模型，该模型无需明确的中间表示即可实现端到端的训练。这种新架构避免了不必要的早期决策，这些决策可能会导致错误在整个级联模型中传播，并且 ii 直接利用端到端的训练数据。我们对两个基于枢轴的机器翻译任务进行了评估，即法语德语和德语捷克语。

PicTalky: Augmentative and Alternative Communication Software for Language Developmental Disabilities
Authors Chanjun Park, Yoonna Jang, Seolhwa Lee, Jaehyung Seo, Kisu Yang, Heuiseok Lim
增强性和替代性交流 AAC 是一种适用于语言障碍人士的实用交流方式。在这项研究中，我们提出了 PicTalky，这是一个基于 AI 的 AAC 系统，可以帮助语言发育障碍儿童提高他们的沟通技巧和语言理解能力。 PicTalky 通过连接一系列基于神经的 NLP 模块，可以更准确地处理文本和象形图。此外，我们对 PicTalky 的基本特征进行了定量和定性分析。期望有语言问题的人士能够更轻松地表达他们的意图或愿望，并通过使用这项服务提高他们的生活质量。我们已经免费提供了这些模型以及 Web 界面的演示。

Fake News Detection: Experiments and Approaches beyond Linguistic Features
Authors Shaily Bhatt, Sakshi Kalra, Naman Goenka, Yashvardhan Sharma
更容易访问互联网和社交媒体使得通过在线资源传播信息变得非常容易。 Facebook、Twitter、在线新闻网站和自称记者的个人博客等来源已成为提供新闻内容的重要参与者。信息的庞大数量和在线生成速度使其实际上超出了人工验证的范围。因此，迫切需要开发可以帮助人类进行自动事实检查和可靠识别假新闻的技术。本文总结了采用的多种方法以及为该任务进行的实验。与新闻文章相关的可信度信息和元数据已被用于改进结果。实验还展示了建模理由或证据如何导致改进的结果。此外，还演示了除语言特征之外的视觉特征的使用。

The JDDC 2.0 Corpus: A Large-Scale Multimodal Multi-Turn Chinese Dialogue Dataset for E-commerce Customer Service
Authors Nan Zhao, Haoran Li, Youzheng Wu, Xiaodong He, Bowen Zhou
随着互联网的发展，越来越多的人习惯了网上购物。用户在与客服沟通时，可能会通过文字、图片、视频等方式表达自己的需求，这就催生了对这些多模态信息的自动客服系统的理解。图像通常作为产品模型的鉴别器，或产品故障的指标，在电子商务场景中扮演着重要的角色。另一方面，图像提供的详细信息是有限的，通常客户服务系统在没有输入文本的情况下无法理解用户的意图。因此，弥合图像和文本之间的差距对于多模态对话任务至关重要。

Small data problems in political research: a critical replication study
Authors Hugo de Vos, Suzan Verberne
在 2019 年常被引用的一篇关于机器学习在政治研究中的使用的论文中，Anastasopoulos Whitford A W 提出了一种与组织声誉相关的推文的文本分类方法。他们的论文旨在为公共管理学者和从业者提供使用机器学习的实践指南。在当前的论文中，我们通过复制 A W 的实验以及对模型稳定性和预处理效果的额外分析来跟进这项工作，这两者都与小数据量有关。我们表明 1 小数据导致分类模型对随机训练测试拆分的变化高度敏感，2 应用的预处理导致数据极其稀疏，数据中的大多数项目最多有两个非零词汇特征。通过改变预处理管道步骤的额外实验，我们表明无论预处理选择如何，小数据量都会导致问题。

MFAQ: a Multilingual FAQ Dataset
Authors Maxime De Bruyn, Ehsan Lotfi, Jeska Buhmann, Walter Daelemans
在本文中，我们展示了第一个公开可用的多语言常见问题数据集。我们从网络上收集了大约 600 万对常见问题解答，有 21 种不同的语言。尽管这比现有的常见问题检索数据集大得多，但它也面临着内容重复和主题分布不均的挑战。我们采用与 Dense Passage Retrieval DPR 类似的设置，并在此数据集上测试各种双编码器。我们的实验表明，除了英语之外，基于 XLM RoBERTa 的多语言模型取得了最好的结果。资源较少的语言似乎可以相互学习，因为多语言模型比特定语言模型实现了更高的 MRR。我们的定性分析揭示了模型在简单单词变化上的脆弱性。

Classifying Dyads for Militarized Conflict Analysis
Authors Niklas Stoehr, Lucas Torroba Hennigen, Samin Ahbab, Robert West, Ryan Cotterell
了解军事冲突的起源是一项复杂但重要的工作。现有研究试图通过考虑实体对二元原因之间的双边关系和多个实体系统原因之间的多边关系来建立这种理解。这项工作的目的是根据这两个原因与两个实体之间的冲突的相关性来比较这两个原因。我们通过设计一组基于文本和图形的特征来代表每个原因来做到这一点。这些特征是从维基百科中提取的，并建模为一个大图。该图中的节点表示由表示盟友或敌人关系的标记边连接的实体。这允许将问题转换为边缘分类任务，我们将其称为二元分类。我们提出并评估分类器，以确定一对特定的实体是盟友还是敌人。我们的结果表明，我们的系统特征可能与冲突的相关性稍好一些。

Investigating Non-local Features for Neural Constituency Parsing
Authors Leyang Cui, Sen Yang, Yue Zhang
由于神经编码器的强大表示能力，基于神经图表的解析器通过使用局部特征实现了极具竞争力的性能。最近，已经表明 CRF 结构中的非局部特征导致改进。在本文中，我们通过预测成分 n gram 非局部模式并确保非局部模式和局部成分之间的一致性，研究将非局部特征注入基于局部跨度的解析器的训练过程。结果表明，我们的简单方法在 PTB 和 CTB 上都比 CRF 解析器给出了更好的结果。

Multiplicative Position-aware Transformer Models for Language Understanding
Authors Zhiheng Huang, Davis Liang, Peng Xu, Bing Xiang
Transformer 模型利用自注意力等架构改进，在自然语言处理 NLP 任务上表现非常出色。自注意力机制与位置无关。为了捕获位置排序信息，已经提出了各种绝对和相对位置嵌入的风格。但是，没有对其贡献进行系统分析，文献中也缺少对这些方法的全面比较。在本文中，我们回顾了主要的现有位置嵌入方法，并使用我们自己的实现比较了它们在下游 NLP 任务上的准确性。我们还提出了一种新的乘法嵌入方法，与现有方法相比，该方法具有更高的准确性。

Effective Use of Graph Convolution Network and Contextual Sub-Tree forCommodity News Event Extraction
Authors Meisin Lee, Lay Ki Soon, Eu Gene Siew
与通用事件提取相比，商品新闻中的事件提取是一个研究较少的领域。然而，从商品新闻中准确的事件提取在国外的应用范围内是有用的，例如理解事件链和学习事件事件关系，然后可以用于商品价格预测。在商品新闻中发现的事件表现出不同于一般事件的特征，因此对使用现有方法进行事件提取提出了独特的挑战。本文提出了一种有效地使用图卷积网络 GCN 和修剪后的依赖解析树，称为上下文子树，以更好地提取商品新闻中的事件。事件提取模型使用来自 ComBERT 的特征嵌入进行训练，ComBERT 是一种基于 BERT 的掩码语言模型，通过对商品新闻语料库进行领域自适应预训练生成。实验结果显示了所提出的解决方案的效率，它以高达 0.90 的 F1 分数执行现有方法。此外，我们的预训练语言模型在参数角色分类方面优于 GloVe 23 和 BERT 和 RoBERTa 7。

Rumour Detection via Zero-shot Cross-lingual Transfer Learning
Authors Lin Tian, Xiuzhen Zhang, Jey Han Lau
大多数社交媒体谣言检测模型都是为一种特定语言设计的，主要是英语。 Twitter 上有 40 多种语言，大多数语言缺乏用于构建谣言检测模型的注释资源。在本文中，我们提出了一种零样本跨语言迁移学习框架，可以将针对源语言训练的谣言检测模型应用于另一种目标语言。我们的框架利用预训练的多语言模型，例如多语言 BERT 和自训练循环以迭代引导在目标语言中创建银标签，以将模型从源语言适应到目标语言。

OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts
Authors Shuhe Wang, Yuxian Meng, Xiaoya Li, Xiaofei Sun, Rongbin Ouyang, Jiwei Li
为了更好地模拟真实的人类对话过程，模型不仅需要基于先前的文本上下文，还需要基于视觉上下文来生成对话话语。然而，随着多模态对话学习的发展，数据集规模逐渐成为瓶颈。在本报告中，我们发布了 OpenViDial 2.0，这是一个比之前版本 OpenViDial 1.0 更大规模的开放域多模态对话数据集。 OpenViDial 2.0 包含从不同资源的电影或电视剧中提取的总共 560 万个对话回合，每个对话回合都与其对应的视觉上下文配对。

Text to Insight: Accelerating Organic Materials Knowledge Extraction via Deep Learning
Authors Xintong Zhao, Steven Lopez, Semion Saikin, Xiaohua Hu, Jane Greenberg
科学文献是共享知识的最重要资源之一。研究人员将科学文献作为设计实验的第一步。鉴于文献数量庞大且不断增长，常见的阅读和手动提取知识的方法过于耗时，造成研究周期的瓶颈。这一挑战几乎涵盖所有科学领域。对于材料科学，分布在数百万篇出版物中的实验数据对于预测材料特性和新材料的设计非常有帮助。然而，直到最近，研究人员才探索了主要用于无机材料的知识提取的计算方法。本研究旨在探索有机材料的知识提取。我们构建了一个研究数据集，其中包含来自 92,667 个摘要的 855 个带注释的句子和 708,376 个未注释的句子。我们使用命名实体识别 NER 和 BiLSTM CNN CRF 深度学习模型从文献中自动提取关键知识。早期阶段的结果显示了自动化知识提取的巨大潜力。

FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural Language Understanding
Authors Yanan Zheng, Jing Zhou, Yujie Qian, Ming Ding, Jian Li, Ruslan Salakhutdinov, Jie Tang, Sebastian Ruder, Zhilin Yang
少镜头自然语言理解 NLU 任务最近引起了很多关注。然而，先前的方法是在一套不同的协议下进行评估的，这阻碍了该领域的公平比较和衡量进展。为了解决这个问题，我们引入了一个评估框架，该框架在三个关键方面改进了以前的评估程序，即测试性能、开发测试相关性和稳定性。在这个新的评估框架下，我们重新评估了 NLU 任务的几种最先进的小镜头方法。我们的框架揭示了新的见解 1 在先前的文献中没有准确估计方法的绝对性能和相对差距 2 没有单一的方法在大多数任务中占主导地位 3 某些方法的改进随着更大的预训练模型而减弱，4 来自不同方法的收益通常是互补的，最佳组合模型的性能接近于强大的完全监督基线。

Extracting and Inferring Personal Attributes from Dialogue
Authors Zhilin Wang, Xuhui Zhou, Rik Koncel Kedziorski, Alex Marin, Fei Xia
个人属性代表关于一个人的结构化信息，例如他们的爱好、宠物、家庭、好恶。在这项工作中，我们介绍了从人类对话中提取和推断个人属性的任务。我们首先展示了在社交聊天对话模型和面向任务的对话设置中结合个人属性的好处。因此，我们提出了个人属性提取和推理的任务，然后分析了这些任务的语言需求。为了应对这些挑战，我们引入了一个简单且可扩展的模型，该模型将利用约束属性生成的自回归语言模型与判别重排序器相结合。

On the Prunability of Attention Heads in Multilingual BERT
Authors Aakriti Budhraja, Madhura Pande, Pratyush Kumar, Mitesh M. Khapra
大型多语言模型，例如 mBERT，已在跨语言迁移方面显示出前景。在这项工作中，我们使用剪枝来量化 mBERT 的稳健性并解释层级重要性。在四个 GLUE 任务中，由于修剪导致的准确度相对下降在 mBERT 和 BERT 上的结果几乎相同，这表明多语言模型的注意力能力降低不会影响修剪的鲁棒性。对于跨语言任务 XNLI，我们报告了修剪的准确性更高的下降，表明跨语言迁移的鲁棒性较低。此外，编码器层的重要性敏感地取决于语言家族和预训练语料库的大小。

Improving Question Answering Performance Using Knowledge Distillation and Active Learning
Authors Yasaman Boreshban, Seyed Morteza Mirbostani, Gholamreza Ghassem Sani, Seyed Abolghasem Mirroshandel, Shahin Amiriparian
当代问答 QA 系统，包括基于转换器的架构，都受到越来越多的计算和模型复杂性的影响，这使得它们对于资源有限的现实世界应用程序效率低下。此外，训练甚至微调此类模型需要大量标记数据，而这些数据通常无法用于手头的任务。在这份手稿中，我们对上述挑战进行了全面分析，并介绍了合适的对策。我们提出了一种新颖的知识蒸馏 KD 方法来降低预训练 BERT 系统的参数和模型复杂性，并利用多种主动学习 AL 策略来极大地减少注释工作。特别是，我们证明了我们的模型实现了 6 层 TinyBERT 和 DistilBERT 的性能，同时仅使用了它们总参数中的 2 个。

QA-Align: Representing Cross-Text Content Overlap by Aligning Question-Answer Propositions
Authors Daniela Brook Weiss, Paul Roit, Ayal Klein, Ori Ernst, Ido Dagan
多文本应用程序，例如多文档摘要，通常需要对相关文本之间的冗余进行建模。当前面临整合的方法难以融合重叠的信息。为了明确表示内容重叠，我们建议对齐跨文本的谓词参数关系，为信息整合提供潜在的支架。我们超越了对引用进行聚类，而是在命题级别对冗余进行模型重叠，而不仅仅是检测共享所指对象。我们的设置利用 QA SRL，利用问答对来捕获谓词参数关系，促进跨文本对齐的外行注释。我们使用众包人员来构建基于 QA 的对齐数据集，并提出了一个在我们的数据集上训练的基线 QA 对齐模型。

An Analysis of Euclidean vs. Graph-Based Framing for Bilingual Lexicon Induction from Word Embedding Spaces
Authors Kelly Marchisio, Youngser Park, Ali Saad Eldin, Anton Alyakin, Kevin Duh, Carey Priebe, Philipp Koehn
BLI 最近在双语词典归纳方面的许多工作将词嵌入视为欧几里得空间中的向量。因此，BLI 通常通过找到将嵌入映射到公共空间的线性变换来解决。或者，词嵌入可以理解为加权图中的节点。这种框架允许我们在不假设线性变换的情况下检查节点的图邻域，并利用图匹配优化文献中的新技术。到目前为止，这些对比方法尚未在 BLI 中进行比较。在这项工作中，我们研究了欧几里得与基于图的 BLI 方法在不同数据条件下的行为，并表明它们在组合时相互补充。

DialogueCSE: Dialogue-based Contrastive Learning of Sentence Embeddings
Authors Che Liu, Rui Wang, Jinghua Liu, Jian Sun, Fei Huang, Luo Si
从对话中学习句子嵌入由于其低注释成本和高领域适应性而受到越来越多的关注。传统方法使用 siamese 网络来完成这项任务，它通过在句子编码器之上应用前馈网络对上下文响应语义相关性进行建模来获得句子嵌入。然而，由于语义文本相似性通常通过元素距离度量来衡量，例如cosine 和 L2 distance ，这种架构在训练和评估之间产生了很大的差距。在本文中，我们提出了 DialogueCSE，这是一种基于对话的对比学习方法来解决这个问题。 DialogueCSE 首先引入了一种新颖的匹配引导嵌入 MGE 机制，该机制根据多轮上下文响应匹配矩阵的指导为每个候选响应嵌入生成上下文感知嵌入，即上下文无关嵌入。然后它将每个上下文感知嵌入与其对应的上下文无关嵌入配对，并最终最小化所有对的对比损失。我们在三个多轮对话数据集上评估我们的模型：微软对话语料库、京东对话语料库和电子商务对话语料库。评估结果表明，我们的方法在 MAP 和 Spearman 相关性度量方面显着优于所有三个数据集的基线，证明了其有效性。

MultiDoc2Dial: Modeling Dialogues Grounded in Multiple Documents
Authors Song Feng, Siva Sankalp Patel, Hui Wan, Sachindra Joshi
我们提出了 MultiDoc2Dial，这是一个新的任务和数据集，用于对基于多个文档的面向目标的对话进行建模。大多数以前的工作将基于文档的对话建模视为基于单个给定文档或段落的机器阅读理解任务。在这项工作中，我们旨在解决更现实的场景，其中面向目标的信息搜索对话涉及多个主题，因此基于不同的文档。为了促进这样的任务，我们引入了一个新的数据集，其中包含基于来自四个不同领域的多个文档的对话。我们还探索在数据集中对基于对话和基于文档的上下文进行建模。

Curb Your Carbon Emissions: Benchmarking Carbon Emissions in Machine Translation
Authors Mirza Yusuf, Praatibh Surana, Gauri Gupta, Krithika Ramesh
最近，NLP 领域取得了明确的进展，随着我们的语言模型的效用随着其性能的提高而增加，其应用也在不断增长。然而，这些模型需要大量的计算能力和数据来训练，从而导致大量的碳足迹。因此，我们是否有必要研究碳效率并寻找替代方案来减少训练模型，尤其是大型语言模型的整体环境影响。在我们的工作中，我们评估机器翻译模型在多个语言对中的性能，以评估为每个语言对训练这些模型所需的计算能力差异，并检查这些模型的各个组件以分析我们管道的各个方面

Paradigm Shift in Natural Language Processing
Authors Tianxiang Sun, Xiangyang Liu, Xipeng Qiu, Xuanjing Huang
在深度学习时代，大多数 NLP 任务的建模已经收敛到几个主流范式。例如，我们通常采用序列标注范式来解决诸如词性标注、NER、分块等一系列任务，而采用分类范式来解决诸如情感分析之类的任务。随着预训练语言模型的快速进步，近年来观察到范式转变的上升趋势，即通过将一项 NLP 任务重新构建为另一项任务来解决它。范式转移在许多任务上取得了巨大成功，成为提高模型性能的一种很有前途的方法。此外，其中一些范式已显示出统一大量 NLP 任务的巨大潜力，从而可以构建单个模型来处理不同的任务。

XLM-K: Improving Cross-Lingual Language Model Pre-Training with Multilingual Knowledge
Authors Xiaoze Jiang, Yaobo Liang, Weizhu Chen, Nan Duan
使用单语和双语纯文本语料库进行跨语言预训练取得了巨大成功。然而，现有的预训练模型忽略了多语言知识，这些知识与语言无关，但包含丰富的跨语言结构对齐。在本文中，我们提出了 XLM K，这是一种在预训练中结合多语言知识的跨语言语言模型。 XLM K 通过两个知识任务来增强现有的多语言预训练，即 Masked Entity Prediction Task 和 Object Entailment Task。我们在 MLQA、NER 和 XNLI 上评估 XLM K。实验结果清楚地证明了对现有多语言语言模型的显着改进。 MLQA 和 NER 的结果展示了 XLM K 在知识相关任务中的优越性。

BioCopy: A Plug-And-Play Span Copy Mechanism in Seq2Seq Models
Authors Yi Liu, Guoan Zhang, Puning Yu, Jianlin Su, Shengfeng Pan
复制机制显式地从源输入序列中获取未更改的标记，以在神经 seq2seq 框架下生成目标输出序列。然而，大多数现有的复制机制只考虑从源句子复制单个单词，这导致在复制长跨度时丢失必要的标记。在这项工作中，我们提出了一种即插即用架构，即 BioCopy，以缓解上述问题。具体来说，在训练阶段，我们为每个令牌构建一个 BIO 标签，并用 BIO 标签联合训练原始模型。在推理阶段，模型将首先在每个时间步预测 BIO 标签，然后根据预测的 BIO 标签执行不同的掩码策略，以缩小词汇表上概率分布的范围。

Entity Linking Meets Deep Learning: Techniques and Solutions
Authors Wei Shen, Yuhan Li, Yinan Liu, Jiawei Han, Jianyong Wang, Xiaojie Yuan
实体链接 EL 是将出现在网络文本中的实体提及与其在知识库中的相应实体联系起来的过程。 EL 在知识工程和数据挖掘领域发挥着重要作用，是知识库填充、内容分析、关系抽取和问答等各种下游应用的基础。近年来，在各个领域取得巨大成功的深度学习 DL 也被用于 EL 方法，以超越传统的基于机器学习的方法并产生最先进的性能。在本次调查中，我们对现有的基于 DL 的 EL 方法进行了全面审查和分析。首先，我们提出了一种新的分类法，它使用三轴嵌入、特征和算法来组织现有的基于 DL 的 EL 方法。然后，我们沿着分类法的三个轴系统地调查了具有代表性的 EL 方法。之后，我们介绍了十个常用的 EL 数据集，并在这些数据集上给出了基于 DL 的 EL 方法的定量性能分析。

Electoral Programs of German Parties 2021: A Computational Analysis Of Their Comprehensibility and Likeability Based On SentiArt
Authors Arthur M. Jacobs, Annette Kinder
使用最先进的计算工具对 2021 年议会选举之前发布的六个德国政党的选举计划进行了分析，以进行定量叙述、主题和情绪分析。我们比较了计算程序文本相似度的不同方法，Jaccard Bag 相似度、潜在语义分析、doc2vec 和 sBERT，表示和计算复杂度从第 1 种方法增加到第 4 种方法。从 Fowlkes Mallows Score 导出的整个文档的新相似性度量应用于 sBERT 转换句子的 kmeans 聚类。使用通过 SentiArt Jacobs, 2019 计算的文本可读性和情感潜力的新指数，我们的数据阐明了程序在长度、主要思想、可理解性、喜爱度和语义复杂性方面的异同。其中，他们揭示了 SPD 和 CDU 的节目在所有其他条件相同的情况下最有可能被理解和讨人喜欢，并且他们提出了一个重要问题，即哪种相似性度量最适合比较文本，例如必须共享的选举节目很多话。

Parallel Refinements for Lexically Constrained Text Generation with BART
Authors Xingwei He
词法约束文本生成旨在通过将一些预先指定的关键字合并到输出中来控制生成的文本。以前的工作通过控制解码过程或迭代地提炼候选输出将词汇约束注入输出中，这往往会生成通用或不合语法的句子，并且具有很高的计算复杂度。为了应对这些挑战，我们提出了用于词法约束文本生成的约束 BART CBART。 CBART 利用预训练的模型 BART，通过将此任务分解为两个子任务，将部分生成负担从解码器转移到编码器，从而提高句子质量。具体来说，我们通过在编码器上添加一个令牌级分类器来扩展 BART，旨在指示解码器在哪里替换和插入。在编码器的引导下，解码器通过在特定位置之前插入令牌并以低置信度重新预测令牌，一步对输入的多个令牌进行细化。为了进一步减少推理延迟，解码器并行预测所有令牌。

Learning to Selectively Learn for Weakly-supervised Paraphrase Generation
Authors Kaize Ding, Dingcheng Li, Alexander Hanbo Li, Xing Fan, Chenlei Guo, Yang Liu, Huan Liu
释义生成是一项长期存在的 NLP 任务，对下游 NLP 任务具有多种应用。然而，现有工作的有效性主要依赖于大量的黄金标记数据。尽管已经提出了无监督的努力来解决这个问题，但由于缺乏监督信号，它们可能无法产生有意义的释义。在这项工作中，我们超越了现有范式，并提出了一种新方法来生成具有弱监督数据的高质量释义。具体来说，我们通过 1 通过基于检索的伪释义扩展获得大量弱标记的平行句子和 2 开发元学习框架来逐步选择有价值的样本来微调预训练的语言模型，即 BART，来解决弱监督释义生成问题。句子释义任务。

Deciding Whether to Ask Clarifying Questions in Large-Scale Spoken Language Understanding
Authors Joo Kyung Kim, Guoyin Wang, Sungjin Lee, Young Bum Kim
大规模会话代理可能会因理解具有各种歧义（例如 ASR 歧义、意图歧义和假设歧义）的用户话语而受到影响。当检测到歧义时，代理应在采取行动之前进行澄清对话以解决歧义。但是，针对所有歧义出现提出澄清问题可能会导致提出太多问题，从而从根本上妨碍用户体验。为了仅在用户满意需要时触发澄清问题，我们提出了一种神经自我注意模型，该模型利用具有歧义和上下文信号的假设。

Coreference Resolution for the Biomedical Domain: A Survey
Authors Pengcheng Lu, Massimo Poesio
共指解析问题是从生物医学文献中提取信息时最常提到的挑战之一。因此，生物医学体裁长期以来一直是仅次于新闻领域的第二大共指解析研究体裁，并且通常是 NLP 大量研究的主题。近年来，这种兴趣大大增长，导致了大量大量数据集、特定领域上下文语言模型和多种架构的开发。

MINIMAL: Mining Models for Data Free Universal Adversarial Triggers
Authors Swapnil Parekh, Yaman Singla Kumar, Somesh Singh, Changyou Chen, Balaji Krishnamurthy, Rajiv Ratn Shah
众所周知，自然语言模型容易受到对抗性攻击，这些攻击本质上大多是特定于输入的。最近，已经表明 NLP 模型中也存在输入不可知攻击，称为通用对抗性触发器。然而，现有的制作通用触发器的方法是数据密集型的。它们需要大量数据样本来生成对抗性触发器，而攻击者通常无法访问这些触发器。例如，以前的工作为 SNLI 数据集的每个类取 3000 个数据样本来生成对抗性触发器。在本文中，我们提出了一种新的无数据方法 MINIMAL，以从模型中挖掘输入不可知的对抗性触发器。使用我们的无数据算法生成的触发器，我们将斯坦福情绪树库的正类的准确度从 93.6 降低到 9.6 。同样，对于斯坦福自然语言推理 SNLI，我们的单个单词触发器将蕴含类的准确度从 90.95 降低到小于 0.6 。

Enhancing Latent Space Clustering in Multi-filter Seq2Seq Model: A Reinforcement Learning Approach
Authors Yunhao Yang, Zhaokun Xue
在对语言处理任务进行排序时，具有异构语义或语法结构的句子可能会增加训练网络时的收敛难度。为了解决这个问题，我们引入了一个模型，该模型集中了输入输出序列中的每个异构特征。在编码器解码器架构的基础上，我们设计了一个潜在的增强多滤波器 seq2seq 模型 LMS2S，它使用聚类算法分析潜在空间表示。表示是从编码器和潜在空间增强器生成的。应用集群分类器将表示分组为集群。将软演员评论强化学习算法应用于聚类分类器，通过最大化轮廓分数来提高聚类质量。然后，多个过滤器仅通过其相应集群的特征进行训练，从而可以相应地解决训练数据的异质性。

Sorting through the noise: Testing robustness of information processing in pre-trained language models
Authors Lalchand Pandia, Allyson Ettinger
预训练的 LM 在下游 NLP 任务上表现出令人印象深刻的表现，但在处理、保留和应用输入中呈现的信息时，我们尚未清楚地了解它们的复杂性。在本文中，我们通过检查模型在面对分散注意力的内容时部署相关上下文信息的能力的稳健性来解决这个问题的一个组成部分。我们展示了需要使用关键上下文信息的完形填空任务模型，并引入分散注意力的内容来测试模型保留和使用该关键信息进行预测的鲁棒性。我们还系统地操纵了这些干扰因素的性质，以阐明模型使用上下文线索的动态。我们发现，尽管模型出现在简单的上下文中以基于对先前上下文的相关事实的理解和应用来进行预测，但分散注意力但不相关的内容的存在对混淆模型预测具有明显的影响。特别是，模型似乎特别容易受到语义相似性和词位置因素的影响。

Language Model Priming for Cross-Lingual Event Extraction
Authors Steven Fincke, Shantanu Agarwal, Scott Miller, Elizabeth Boschee
我们提出了一种新颖的、语言不可知的方法来启动用于事件提取任务的语言模型，在低资源和零镜头跨语言设置中提供特别有效的性能。通过启动，我们根据在运行时对模型提出的问题以不同方式增加对转换器堆栈的语言模型的输入。例如，如果模型被要求识别触发器抗议的参数，我们将提供该触发器作为语言模型输入的一部分，允许它为候选参数生成不同的表示，而不是被询问参数时在同一句子的其他地方触发逮捕。

Graph Reasoning with Context-Aware Linearization for Interpretable Fact Extraction and Verification
Authors Neema Kotonya, Thomas Spooner, Daniele Magazzeni, Francesca Toni
本文提出了一个使用文本和表格证据进行事实提取和验证的端到端系统，我们在 FEVEROUS 数据集上展示了其性能。我们尝试使用多任务学习范式来联合训练用于证据提取和真实性预测任务的图注意力网络，以及用于单独学习真实性预测和单独证据提取的单一目标图模型。在这两种情况下，我们都采用了表格证据的每单元线性化框架，从而允许我们将表格中的证据视为序列。我们用于线性化表格的模板捕获上下文以及表格数据的内容。我们还提供了一个案例研究来展示我们的方法的可解释性。

DziriBERT: a Pre-trained Language Model for the Algerian Dialect
Authors Amine Abdaoui, Mohamed Berrimi, Mourad Oussalah, Abdelouahab Moussaoui
鉴于它们在许多任务和语言中的最新成果，预训练的 Transformer 现在是自然语言处理中的事实上的模型。但是，当前的大多数模型都针对已经有大量文本资源的语言进行了训练，例如英语、法语、阿拉伯语等。因此，仍有一些低资源语言需要社区更多的关注。在本文中，我们研究了阿尔及利亚方言，该方言有几个特殊性，使得使用阿拉伯语或多语言模型不合适。为了解决这个问题，我们收集了超过一百万条阿尔及利亚推文，并预训练了第一个阿尔及利亚语言模型 DziriBERT。与现有模型相比，DziriBERT 在两个阿尔及利亚下游数据集上取得了最佳结果。获得的结果表明，在 150 MB 的小数据集上预训练专用模型可以胜过已经在数百 GB 的更多数据上训练的现有模型。

A Graph-Based Neural Model for End-to-End Frame Semantic Parsing
Authors Zhichao Lin, Yueheng Sun, Meishan Zhang
帧语义解析是最近备受关注的基于FrameNet的语义分析任务。该任务通常涉及三个子任务，依次为 1 个目标识别、2 个框架分类和 3 个语义角色标记。这三个子任务密切相关，而先前的研究将它们单独建模，这忽略了它们的内部连接，同时引发了错误传播问题。在这项工作中，我们提出了一个端到端的神经模型来共同处理任务。具体来说，我们利用基于图的方法，将框架语义解析视为图构建问题。所有谓词和角色都被视为图节点，它们的关系被视为图边。

Learning Neural Templates for Recommender Dialogue System
Authors Zujie Liang, Huang Hu, Can Xu, Jian Miao, Yingying He, Yining Chen, Xiubo Geng, Fan Liang, Daxin Jiang
尽管最近的端到端神经模型在对话式推荐系统 CRS 上取得了可喜的进展，但仍然存在两个关键挑战。首先，推荐的项目不能总是准确和适当地合并到生成的回复中。其次，只有训练语料中提到的项目才有机会在对话中被推荐。为了应对这些挑战，我们为推荐对话系统引入了一个名为 NTRD 的新框架，该框架将对话生成与项目推荐分离。 NTRD 有两个关键组件，即响应模板生成器和项目选择器。前者采用编码器解码器模型生成一个响应模板，其中插槽位置与目标项目相关联，而后者使用足够的注意力机制用适当的项目填充插槽位置。我们的方法结合了通常可控的经典槽填充方法和通常更自然和准确的现代神经 NLG 方法的优势。在基准 ReDial 上进行的大量实验表明，我们的 NTRD 显着优于之前最先进的方法。此外，我们的方法具有独特的优势，可以生成没有出现在对话语料库训练集中的新项目。

Finetuning Transformer Models to Build ASAG System
Authors Mithun Thakkar
自 1966 年以来，一直在研究创建用于自动评分学生对教育环境中的测验和考试问题的答案的系统。多年来，该问题分为许多类别。其中，文本答案评分分为简答评分和作文评分。这项工作的目标是开发一个基于机器学习的简答评分系统。因此，我构建了一个系统，该系统对在 STS 基准数据集上预训练的 Roberta 大型模型进行微调，并创建了一个界面来显示系统的生产准备情况。我在 Mohler 扩展数据集和 SciEntsBank 数据集上评估了系统的性能。开发的系统在 Mohler 数据集上实现了 0.82 的 Pearsons Correlation 和 0.7 的 RMSE，这超过了该数据集上的 SOTA 性能，其相关性为 0.805，RMSE 为 0.793。此外，在 SciEntsBank 数据集上实现了 0.79 的 Pearsons Correlation 和 0.56 的 RMSE，这再次确认了系统的稳健性。在实现这些结果期间的一些观察包括使用批量大小为 1 比使用批量大小为 16 或 32 产生更好的结果，并且使用 huber 损失作为损失函数在此回归任务中表现良好。

Jointly Learning to Repair Code and Generate Commit Message
Authors Jiaqi Bai, Long Zhou, Ambrosio Blanco, Shujie Liu, Furu Wei, Ming Zhou, Zhoujun Li
我们提出了一项联合修复程序代码和生成提交消息的新任务。代码修复和提交消息生成是软件开发的两项基本且相关的任务。但是，现有工作通常独立执行这两项任务。我们为这项新任务构建了一个多语言三元组数据集，包括错误代码、固定代码和提交消息。我们提供级联模型作为基线，这些模型通过不同的训练方法得到增强，包括师生方法、多任务方法和反向翻译方法。针对级联方法的错误传播问题，提出了在统一框架中既可以修复代码又可以生成提交消息的联合模型。

More Than Reading Comprehension: A Survey on Datasets and Metrics of Textual Question Answering
Authors Yang Bai, Daisy Zhe Wang
Textual Question Answering QA 旨在使用非结构化数据以自然语言为用户的问题提供精确的答案。实现这一目标最流行的方法之一是机器阅读理解 MRC。近年来，许多基于经典 MRC 任务的新数据集和评估指标被提出用于更广泛的文本 QA 任务。在本文中，我们调查了 47 个最近的文本 QA 基准数据集，并从应用程序的角度提出了一种新的分类法。此外，我们总结了文本 QA 任务的 8 个评估指标。

Pushing on Text Readability Assessment: A Transformer Meets Handcrafted Linguistic Features
Authors Bruce W. Lee, Yoo Sung Jang, Jason Hyung Jong Lee
我们报告了可读性评估的两个重要改进 1. 高级语义中的三个新特征和 2. 传统 ML 模型的及时证据，例如随机森林，使用手工制作的特征可以与变压器结合，例如RoBERTa 以增强模型性能。首先，我们探索合适的转换器和传统的机器学习模型。然后，我们使用自主开发的提取软件提取了 255 个手工语言特征。最后，我们将它们组合起来创建几个混合模型，在可读性评估中对流行数据集实现最先进的 SOTA 准确性。手工特征的使用有助于在较小的数据集上建模性能。

Systematic Generalization on gSCAN: What is Nearly Solved and What is Next?
Authors Linlu Qiu, Hexiang Hu, Bowen Zhang, Peter Shaw, Fei Sha
我们分析了最近提出的接地 SCAN gSCAN 基准测试，以研究接地语言理解的系统概括。首先，我们研究原始基准的哪些方面可以通过多模态研究中的常用方法解决。我们发现，具有跨模态注意力的基于通用 Transformer 的模型在大多数 gSCAN 拆分上都实现了强大的性能，令人惊讶地优于先前工作中更专业的方法。此外，我们的分析表明，无论视觉上下文如何，许多剩余的错误揭示了语言结构的系统概括中相同的基本挑战。其次，受这一发现的启发，我们通过生成数据来合并视觉环境中对象之间的关系，为 gSCAN 提出了具有挑战性的新任务。

Weakly Supervised Contrastive Learning for Chest X-Ray Report Generation
Authors An Yan, Zexue He, Xing Lu, Jiang Du, Eric Chang, Amilcare Gentili, Julian McAuley, Chun Nan Hsu
放射学报告生成旨在自动从放射学图像生成描述性文本，这可能为改进放射学报告和解释提供机会。典型的设置包括在具有交叉熵损失的图像报告对上训练编码器解码器模型，由于正常结果在数据集中占主导地位，因此很难为临床诊断生成信息性句子。为了应对这一挑战并鼓励临床上更准确的文本输出，我们提出了一种新的弱监督对比损失来生成医学报告。实验结果表明，我们的方法受益于将目标报告与不正确但语义接近的报告进行对比。

An animated picture says at least a thousand words: Selecting Gif-based Replies in Multimodal Dialog
Authors Xingyao Wang, David Jurgens
在线对话不仅仅包括文本。越来越多的基于图像的回应，如模因和 gif 动画，在对话中成为文化认可的、通常是幽默的回应。然而，虽然 NLP 已扩展到多模态模型，但会话对话系统主要专注于生成文本回复。在这里，我们引入了一个新的 1.56M 文本 gif 对话轮次数据集，并引入了一个新的多模态对话模型 Pepe the King Prawn，用于选择基于 gif 的回复。

Style Control for Schema-Guided Natural Language Generation
Authors Alicia Y. Tsai, Shereen Oraby, Vittorio Perera, Jiun Yu Kao, Yuheng Du, Anjali Narayan Chen, Tagyoung Chung, Dilek Hakkani Tur
面向任务的对话系统的自然语言生成 NLG 专注于准确、流畅和连贯地传达特定内容。虽然这些属性对于成功的对话至关重要，但同时实现特定的文体目标也是可取的，例如响应长度、观点、描述性、情感、形式和同理心。在这项工作中，我们专注于模式引导 NLG 的文体控制和评估，共同目标是实现语义和文体控制。我们对大型预训练语言模型的各种受控生成方法进行了详细实验，特别是条件训练、引导式微调和引导式解码。我们讨论了它们的优点和局限性，并使用广泛的自动和人工评估指标对其进行评估。我们的结果表明，虽然通过条件训练更容易实现更词汇定义的风格的高风格准确性和语义正确性，但使用基于判别器的引导解码方法，对于语义更复杂的风格也可以实现风格控制。

What Truly Matters? Using Linguistic Cues for Analyzing the #BlackLivesMatter Movement and its Counter Protests: 2013 to 2020
Authors Jamell Dacon, Jiliang Tang
自从 2012 年 2 月，佛罗里达州桑福德的白人社区守望者乔治齐默尔曼 (George Zimmerman) 射杀了 17 岁的黑人少年 Trayvon Martin 以来，针对美国警察暴行相关和出于种族动机的事件，数字激进主义活动显着增加。在这项工作中，我们通过利用社交媒体作为权威工具来检查和分析这三种媒体中的语言线索和主题关系，对数字激进主义进行了一项创新研究。我们对 36,984,559 条推文进行多级文本分析，以调查用户行为，以检查所使用的语言，并了解数字激进主义在句子级别、单词级别和主题级别的每个社交运动中对社交媒体的影响。我们的结果表明，反抗议活动过度使用与种族相关或带有偏见的标签，这些标签描绘了潜在的歧视倾向。因此，我们的研究结果强调，黑人的命也是命活动家所做的社会激进主义与涉及警察暴行和种族动机杀害黑人的社会问题和主题并无不同，因为其主题图的形状是围绕最大组成部分的主题和对话直接关系到黑人的命也是命的话题。最后，我们看到 Blue Lives Matter 和 All Lives Matter 运动描绘了不同的指令，因为 Blue Lives Matter 或 All Lives Matter 的主题并不位于中心。

Predicting Attention Sparsity in Transformers
Authors Marcos Treviso, Ant nio G is, Patrick Fernandes, Erick Fonseca, Andr F. T. Martins
Transformer 架构的一个瓶颈是它们相对于输入序列的二次复杂性，这激发了大量关于 softmax 的有效稀疏近似的工作。 entmax 变换器使用的另一种路径包括内置精确的稀疏注意力，但是这种方法仍然需要二次计算。在本文中，我们提出了 Sparsefinder，这是一个简单的模型，用于在计算之前识别 entmax 注意力的稀疏模式。我们基于距离、量化和聚类，在解码器和掩码语言建模编码器中的机器翻译注意力这两个任务上对我们方法的三种变体进行了实验。我们的工作通过对预测注意力图的稀疏性和召回率之间的权衡进行广泛分析，为研究模型效率提供了一个新的角度。

Leveraging Pretrained Models for Automatic Summarization of Doctor-Patient Conversations
Authors Longxiang Zhang, Renato Negrinho, Arindam Ghosh, Vasudevan Jagannathan, Hamid Reza Hassanzadeh, Thomas Schaaf, Matthew R. Gormley
用于自动总结医患对话记录的微调预训练模型带来了许多挑战，有限的训练数据、显着的域转移、冗长且嘈杂的记录以及高目标摘要可变性。在本文中，我们探讨了使用预训练的 Transformer 模型直接从记录中自动总结医患对话的可行性。我们表明，通过在专门构建的数据集上微调 BART，可以使用有限的训练数据生成流畅且充分的摘要。由此产生的模型大大超过了普通人类注释者的性能和先前已发表的任务工作的质量。我们评估了多种处理长对话的方法，将它们与截断对话以适应预训练模型长度限制的明显基线进行比较。我们引入了一种多阶段方法，该方法通过学习两个微调模型来解决该任务，一个用于将对话块总结为部分摘要，然后一个用于将部分摘要的集合重写为完整的摘要。使用精心选择的微调数据集，该方法被证明在处理较长的对话方面是有效的，提高了生成摘要的质量。

BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition
Authors Yu Zhang, Daniel S. Park, Wei Han, James Qin, Anmol Gulati, Joel Shor, Aren Jansen, Yuanzhong Xu, Yanping Huang, Shibo Wang, Zongwei Zhou, Bo Li, Min Ma, William Chan, Jiahui Yu, Yongqiang Wang, Liangliang Cao, Khe Chai Sim, Bhuvana Ramabhadran, Tara N. Sainath, Fran oise Beaufays, Zhifeng Chen, Quoc V. Le, Chung Cheng Chiu, Ruoming Pang, Yonghui Wu
我们总结了大量使用巨型自动语音识别 ASR 模型的结果，这些模型使用包含大约一百万小时音频的大型、多样的未标记数据集进行预训练。我们发现，预训练、自训练和扩大模型大小的结合极大地提高了数据效率，即使对于具有数万小时标记数据的超大型任务也是如此。特别是，在具有 34,000 小时标记数据的 ASR 任务上，通过微调 80 亿参数的预训练 Conformer 模型，我们可以仅用 3 个训练数据匹配最先进的 SoTA 性能，并显着改善 SoTA 与完整训练集.我们还报告了将大型预训练和自训练模型用于涵盖广泛语音域并跨越多个数量级的数据集大小的大量下游任务所获得的普遍好处，包括在许多公共基准上获得 SoTA 性能.

Multimodal Integration of Human-Like Attention in Visual Question Answering
Authors Ekta Sood, Fabian K gel, Philipp M ller, Dominike Thomas, Mihai Bace, Andreas Bulling
类似人类的注意力作为指导神经注意力的监督信号已显示出显着的前景，但目前仅限于单模态整合，即使对于视觉问答 VQA 等固有的多模态任务也是如此。我们提出了 Multimodal Human like Attention Network MULAN，这是第一种在 VQA 模型训练期间对图像和文本的人类注意力进行多模态整合的方法。 MULAN 将来自两个最先进的文本和图像显着性模型的注意力预测集成到最近基于 Transformer 的 VQA 模型的神经自注意力层中。通过对具有挑战性的 VQAv2 数据集的评估，我们表明 MULAN 在测试标准上达到了 73.98 的准确率，在测试开发上达到了 73.72，同时，与之前的工作相比，可训练参数减少了大约 80 个。

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering
Authors Ekta Sood, Fabian K gel, Florian Strohm, Prajit Dhar, Andreas Bulling
我们在使用高速眼动仪收集的视觉问答 VQA 期间，向 VQA MHUG 展示了一个新的 49 位参与者多模态人类注视图像和问题的数据集。我们使用我们的数据集来分析五个最先进的 VQA 模型 Modular Co Attention Network MCAN、Pythia、Bilinear Attention Network BAN 和 Multimodal Factorized Bilinear Pooling Network MFB 学习的人类注意力策略和神经注意力策略之间的相似性.虽然之前的工作侧重于研究图像模态，但我们的分析首次表明，对于所有模型，与人类对文本的注意力的更高相关性是 VQA 性能的重要预测指标。

The Spread of Propaganda by Coordinated Communities on Social Media
Authors Kristina Hristakieva, Stefano Cresci, Giovanni Da San Martino, Mauro Conti, Preslav Nakov
社交媒体上的大规模操纵具有两个重要特征：一是使用文本宣传来影响他人，二是采用协调行为来传播它并放大其影响。尽管它们之间存在联系，但迄今为止，这两个特征一直被孤立地考虑。在这里，我们旨在弥合这一差距。特别是，我们在关于 2019 年英国大选的大型 Twitter 数据集上分析了宣传的传播及其与协调行为的相互作用。我们首先提出并评估了几个衡量 Twitter 宣传使用的指标。然后，我们调查了参与在线辩论的不同协调社区对宣传的使用。宣传的使用和协调行为的结合使我们能够揭示不同社区的真实性和危害性。最后，我们将我们的宣传和协调措施与自动化进行比较，即机器人评分和 Twitter 暂停，揭示了有趣的趋势。从理论的角度来看，我们介绍了一种分析很少被联合考虑的在线行为的几个重要维度的方法。

RuleBert: Teaching Soft Rules to Pre-trained Language Models
Authors Mohammed Saeed, Naser Ahmadi, Preslav Nakov, Paolo Papotti
虽然预训练的语言模型 PLM 是解决许多自然语言处理问题的首选解决方案，但它们捕获和使用常识知识的能力仍然非常有限。事实上，即使信息以近似软逻辑规则的形式可用，也不清楚如何将其转移到 PLM 以提高其演绎推理任务的性能。在这里，我们旨在通过教授 PLM 如何使用软 Horn 规则进行推理来弥合这一差距。我们引入了一个分类任务，其中，给定事实和软规则，PLM 应该返回具有给定假设概率的预测。我们发布了此任务的第一个数据集，并提出了修改后的损失函数，使 PLM 能够学习如何预测任务的精确概率。我们的评估结果表明，由此产生的微调模型实现了非常高的性能，即使在训练中看不到的逻辑规则上也是如此。

Understanding and Overcoming the Challenges of Efficient Transformer Quantization
Authors Yelysei Bondarenko, Markus Nagel, Tijmen Blankevoort
基于 Transformer 的架构已成为各种自然语言处理任务的事实上的标准模型。然而，它们的内存占用和高延迟阻碍了在资源有限设备上的高效部署和推理。在这项工作中，我们探索了变压器的量化。我们表明转换器具有独特的量化挑战，即难以用低位定点格式表示的高动态激活范围。我们确定这些激活在残差连接中包含结构化的异常值，这些异常值鼓励特定的注意力模式，例如关注特殊的分隔符标记。为了应对这些挑战，我们提出了三种基于训练后量化和量化感知训练的解决方案，每种解决方案在准确性、模型大小和易用性方面都有不同的妥协。特别是，我们为每个嵌入组量化引入了一种新的量化方案。我们使用 BERT 在 GLUE 基准测试中证明了我们的方法的有效性，为训练后量化建立了最先进的结果。最后，我们表明转换器权重和嵌入可以量化为超低位宽，从而以最小的精度损失显着节省内存。

Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with Non-Autoregressive Hidden Intermediates
Authors Hirofumi Inaguma, Siddharth Dalmia, Brian Yan, Shinji Watanabe
多解码器 MD 端到端语音翻译模型通过搜索更好的中间自动语音识别 ASR 解码器状态作为隐藏中间物 HI 来展示高翻译质量。它是一个两遍解码模型，将整个任务分解为 ASR 和机器翻译子任务。然而，解码速度对于实际应用来说还不够快，因为它在推理过程中对两个子任务进行波束搜索。我们提出了 Fast MD，这是一种快速 MD 模型，它通过基于连接主义时间分类 CTC 输出的非自回归 NAR 解码生成 HI，然后是 ASR 解码器。我们通过使用自回归 Transformer ASR 解码器研究了两种类型的 NAR HI 1 并行 HI，并通过使用结合 CTC 和条件掩码语言模型的 Mask CTC 来研究 2 掩码 HI。为了减少训练期间教师强制和测试期间对 CTC 输出进行调节之间 ASR 解码器的不匹配，我们还建议在训练期间对 CTC 输出进行采样。在三个语料库上的实验评估表明，Fast MD 在 GPU 和 CPU 上实现了比原始 MD 模型快 2 倍和 4 倍的解码速度，翻译质量相当。

ReINTEL Challenge 2020: A Comparative Study of Hybrid Deep Neural Network for Reliable Intelligence Identification on Vietnamese SNSs
Authors Hoang Viet Trinh, Tung Tien Bui, Tam Minh Nguyen, Huy Quang Dao, Quang Huu Pham, Ngoc N. Tran, Ta Minh Thanh
海量数据造成了错误信息危机。未经证实的耸人听闻的目的是为了抓住读者短暂的注意力，当恶意制作时，已经对我们的社会结构造成了无法弥补的损害。因此，确定一篇文章的可靠性已成为一项至关重要的任务。经过各种消融研究，我们提出了一个多输入模型，可以有效地利用表格元数据和任务发布内容。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com