【AI视野·今日NLP 自然语言处理论文速览第十五期】Fri, 25 Jun 2021_learning language and multimodal privacy-preservin-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/118228154

AI视野·今日CS.NLP 自然语言处理论文速览
Fri, 25 Jun 2021
Totally 23 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Towards Understanding and Mitigating Social Biases in Language Models
Authors Paul Pu Liang, Chiyu Wu, Louis Philippe Morency, Ruslan Salakhutdinov
由于机器学习方法部署在真实世界的环境中，例如医疗保健，法律制度和社会科学等，这对他们在这些敏感决策过程中造成社会偏见和刻板印象是至关重要的。在这种现实世界部署中是大规模预训练语言模型LMS，这在表现出不希望的代表性偏见的有害偏见方面可能是潜在的危险，这些偏见造成的陈规定型偏见，这些偏差传播涉及性别，种族，宗教和其他社会结构的负面概括。作为提高LMS公平性的一步，我们在提出新的基准和指标之前仔细定义了几个代表性偏见来源以测量它们。通过这些工具，我们提出了在文本生成期间缓解社会偏见的步骤。我们的经验结果和人类评估展示了缓解偏差的有效性，同时保留了高保真文本生成的至关重要的语境信息，从而推动了性能公平帕累托前沿。

Splitting EUD graphs into trees: A quick and clatty approach
Authors Mark Anderson, Carlos G mez Rodr guez
我们在IWPT 2021年介绍了SpetParse团队的系统提交。我们通过专注于效率，去年从事该任务。今年，我们专注于在有限的时间预算上尝试新想法。我们的系统基于基于语言标准将EUD图分成几棵树。我们使用序列标记解析器预测这些树木并将它们组合成EUD图。结果相对较差，尽管没有完全灾难，并且可以随着系统粗糙边的一些抛光而改善。

Where are we in semantic concept extraction for Spoken Language Understanding?
Authors Sahar Ghannay, Antoine Caubri re, Salima Mdhaffar, Ga lle Laperri re, Bassam Jabaian, Yannick Est ve
通言语言理解SLU主题在过去三年中看到了很多进展，结束了最终神经方法。口语语言理解是指与语音信号相关的自然语言处理任务，例如在人机对话的背景下从语音或插槽填充任务中的命名实体识别。经典地，通过级联方法处理SLU任务，该级联方法包括在进行自动语音识别过程，然后是应用于自动转录的自然语言处理模块。本三年来，基于深神经网络的基于深度神经网络，已经提出了通过使用单个神经模型直接从语音信号直接提取语义。最近在自我监督培训方面采用未标记数据开放新的视角，以进行自动语音识别和自然语言处理。在本文中，我们介绍了SLU的法式媒体基准数据集最近的进步，有或不使用其他数据。我们还提出了我们的最后一点，以11.2的概念误差率CER，而不是今年艺术系统的最后一个州的概念误差率CER显着优异。

QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic Speech Corpus
Authors Hamdy Mubarak, Amir Hussein, Shammur Absar Chowdhury, Ahmed Ali
我们介绍了从广播领域收集的最大转录的阿拉伯语语音语料库。这个多方面的语言语音数据集包含在16khz上采样的2,000小时的语音，从阿尔卓参阅新闻频道爬行。 DataSet释放有轻型监督的转录，与音频段对齐。与以前的数据集不同，QASR包含语言上积极的分段，标点符号，扬声器信息等。 QASR适用于培训和评估语音识别系统，声学和语言学的阿拉伯语方言识别，标点符号恢复，扬声器识别，扬声器链接，以及用于口头数据的可能其他NLP模块。除了QasR转录外，我们还释放了130米单词的数据集，以帮助设计和培训更好的语言模型。我们展示了在QASR上培训的端到端自动语音识别，与之前的MGB 2语料库相比，竞争语言错误率。我们向下游自然语言处理任务报告基线结果，例如使用语音成绩单的命名实体识别。我们还报告了阿拉伯语标点恢复的第一个基线。我们使语料库可用于研究界。

Exploring Self-Identified Counseling Expertise in Online Support Forums
Authors Allison Lahnala, Yuntian Zhao, Charles Welch, Jonathan K. Kummerfeld, Lawrence An, Kenneth Resnicow, Rada Mihalcea, Ver nica P rez Rosas
越来越多的人从事在线健康论坛，了解他们收到的建议的质量很重要。在本文中，我们探讨了专业知识在提供的答复中的作用，以帮助寻求心理健康的帖子。我们研究了与同龄人的1个互动与自我确定的心理健康专业人员的互动之间的差异。首先，我们表明分类器可以区分这两组，表明他们的语言使用实际上不同。要了解这种差异，我们执行若干分析解决参与方面，包括他们的评论是否进一步与支持者和语言方面都参与，例如主导语言和语言风格匹配。我们的工作有助于了解卫生专家如何在社交网络中与卫生信息与求职者互动的发展努力。更广泛地，迈向更深入地了解培养在线社区的支持性接触的互动风格。

AIT-QA: Question Answering Dataset over Complex Tables in the Airline Industry
Authors Yannis Katsis, Saneem Chemmengath, Vishwajeet Kumar, Samarth Bharadwaj, Mustafa Canim, Michael Glass, Alfio Gliozzo, Feifei Pan, Jaydeep Sen, Karthik Sankaranarayanan, Soumen Chakrabarti
变形金刚的最新进步使得表疑问应答QA系统实现高精度和SOTA在WikitaityQuestions和WikiSQL等开放域数据集上的结果。这些变形式经常在开放域内容（如Wikipedia）上进行预先培训，其中它们有效地编码了Wikipedia的问题和相应的表，如表QA数据集所示。但是，维基百科的Web表在其布局中非常平坦，第一行作为唯一列标题。布局借助于每个行是元组的表的关系视图。虽然，域特定业务或科学文档的表通常具有更复杂的布局，包括分层行和列标题，除了具有来自该域的专门的词汇术语。

Multilingual transfer of acoustic word embeddings improves when training on languages related to the target zero-resource language
Authors Christiaan Jacobs, Herman Kamper
声学词嵌入模型将可变持续时间语音段映射到固定维度向量，实现有效的语音搜索和发现。以前的工作探索了如何在零资源设置中获得嵌入式，其中目标语言中没有标记的数据。当前最佳方法使用传输学习单个监督的多语言模型使用来自多个井资源语言的标记数据进行培训，然后应用于目标零资源语言而无需微调。但是，目前还不清楚培训语言的特定选择如何影响下游性能。具体地，在这里，我们询问是否有利于使用与目标相关的培训语言。使用来自南部非洲的11种语言的数据，我们试验来自不同语言系列的数据添加数据，同时控制每种语言的数据量。通过示例搜索评估的单词歧视和查询，我们显示来自同一家庭的语言培训提供了大的改进。通过更精细的粒度分析，我们表明甚至只有一个相关语言的培训给出了最大的收益。我们还发现，从不相关语言添加数据通常不会受到伤害性能。

On the Influence of Machine Translation on Language Origin Obfuscation
Authors Benjamin Murauer, Michael Tschuggnall, G nther Specht
在过去十年中，机器翻译已成为处理多语言数字内容的流行手段。通过提供更高的质量翻译，混淆文本的源语言变得更有吸引力。在本文中，我们通过利用像N克这样的基本文本功能的机器学习算法来分析从两个广泛使用的商业机器翻译系统的翻译输出中检测到源语言的能力。评估表明，可以以高精度地重建源语言，用于包含足够数量的翻译文本的文档。此外，我们分析了文档规模的影响如何影响预测的性能，以及如何限制可能的源语言的限制可以提高分类准确性。

OKGIT: Open Knowledge Graph Link Prediction with Implicit Types
Authors Chandrahas, Partha Pratim Talukdar
开放知识图表OpenKg指的是一组头部名词短语，关系短语，尾部名词短语三元组，如tesla，返回，从使用Openie工具中从语料库中提取的纽约。虽然OpenKgs易于启动域，但它们非常稀疏，远远远远无法直接可用。因此，预测新事实的任务，即链路预测，在下游任务中使用这些图形，例如文本理解，问题应答和网络搜索查询推荐。用于Openkgs的学习嵌入式是用于链接预测的一种方法，最近得到了一些关注。然而，在仔细检查时，我们发现当前OpenKG链路预测算法通常预测给定名词和关系短语的不兼容类型的名词短语NP。我们在这项工作中解决了这个问题，并提出了使用小说类型兼容性分数和类型正常化来改善Openkg链路预测的Okgit。在多个数据集上进行了广泛的实验，我们表明该方法在链路预测任务中产生类型兼容NP的同时实现了现有技术的状态。

Modeling Diagnostic Label Correlation for Automatic ICD Coding
Authors Shang Chi Tsai, Chao Wei Huang, Yun Nung Chen
鉴于在电子健康记录EHR中写入的临床票据，预测将其作为多标签分类任务制定的诊断代码有挑战性。大量标签，分层依赖性和不平衡数据使得这一预测任务非常硬。大多数现有工作独立地为每个标签构建了二进制预测，忽略了标签之间的依赖关系。为了解决这个问题，我们提出了一个两个阶段框架来通过捕获标签相关性来改善自动ICD编码。具体而言，我们训练标签集分发估计器以重振基本预测器生成的每个标签集候选的概率。本文是第一次尝试将标签集分配作为用于医学代码预测的重新登记模块。在实验中，我们建议的框架能够在基准模拟数据集上最佳地执行预测器。此项目的源代码可用

Evaluation of Representation Models for Text Classification with AutoML Tools
Authors Sebastian Br ndle, Marc Hanussek, Matthias Blohm, Maximilien Kintz
自动化机器学习自动机近年来在表格数据上取得了越来越大。但是，处理非结构化数据等文本是一个挑战，不受开源自动机工具的广泛支持。此工作会比较三个手动创建的文本表示和自动创建的文本嵌入式，由Automl Tools自动创建。我们的基准测试包括四个流行的开源自动机器工具和八个数据集，用于文本分类目的。结果表明，直接的文本表示比自动创建文本嵌入式更好地表现优于Automl工具。

A comprehensive empirical analysis on cross-domain semantic enrichment for detection of depressive language
Authors Nawshad Farruque, Randy Goebel, Osmar Zaiane
我们分析创建用于学习任务的单词嵌入功能表示的过程，例如，当注释数据稀缺时，例如，来自推文的抑郁语言检测。我们从一个丰富的单词嵌入预先从大型常规数据集进行训练，然后通过简单的非线性映射机制从一个更小的更具体的域数据集中学习的eMbeddings。我们还尝试了这种映射的其他几种更复杂的方法，包括基于几种基于自动编码器和自定义丢失功能的方法，这些方法通过逐步学习来逐渐学习嵌入表示的方法，以接近类似语义的单词和远处对不同语义的单词。我们加强的表示更好地捕获了抑郁域的语义，因为它结合了从综合语言的单词覆盖范围内耦合的语义学习的语义。我们还通过简单的单词模型，众所周知的情绪和精神语言词典，以及一般预先训练的单词嵌入的一篇文字模型的比较绩效分析。当用作几种不同的机器学习方法的特征表示时，包括在抑郁的推文识别任务中的深度学习模型，我们表明我们的增强词嵌入式表示比其他在应用于高质量数据集时，我们的增强词嵌入式表示比其他方式更好。此外，我们提出了几种数据消融测试，该试验证实了我们的增强技术的功效。

TagRuler: Interactive Tool for Span-Level Data Programming by Demonstration
Authors Dongjin Choi, Sara Evensen, a atay Demiralp, Estevam Hruschka
尽管机器学习研究领域的发展迅速，但收集了监督学习的高质量标签仍然是许多应用的瓶颈。这种困难使NLP任务的最先进模型变得更深，更复杂的事实，通常增加即使进行微调所需的训练数据。弱监管方法，包括数据编程，解决这个问题，并通过使用嘈杂的标签来源来降低标签收集的成本进行监督。但是，直到最近，数据编程只能访问如何编程的用户访问。为了弥合这一差距，提出了通过演示框架进行的数据编程，以便根据域专家标记的一些例子自动创建标签功能。该框架已成功地成功为文档分类产生高精度标记模型。在这项工作中，我们将DPBD框架扩展到跨越级别注释任务，可以说是最耗时的NLP标签任务之一。我们建立了一个新颖的工具Tagrular，这使得注释器可以轻松构建跨度级标签功能而无需编程，并鼓励他们探索不同标签模型和主动学习策略之间的贸易问题。我们经验证明了与不同跨度注释任务的手动标签相比，注释器可以使用所提出的工具实现更高的F1分数。

An Automated Knowledge Mining and Document Classification System with Multi-model Transfer Learning
Authors Jia Wei Chong, Zhiyuan Chen, Mei Shin Oh
服务手册文件对工程公司至关重要，因为它们为服务工程师提供指导和知识。然而，由于资源的复杂性，服务工程师对服务工程师从文档中检索特定知识已经不方便和效率。在本研究中，我们提出了一种具有新型多模型转移学习方法的自动知识挖掘和文档分类系统。特别地，系统的分类性能已经提高了三种有效的技术精细调谐，修剪和多模型方法。微调技术通过添加前馈神经网络层来优化预训练的BERT模型，并且修剪技术用于用新数据重新擦除BERT模型。多模型方法初始化和列达多个BERT模型，以克服微调过程中数据排序的随机性。在训练过程的第一次迭代中，多个BERT模型正在同时培训。然后选择最佳模型，用于训练过程的下一阶段，另外两个迭代和其他BERT模型的训练过程将被终止。通过与两种强大的基线方法，BERT和BERT CNN进行比较，评估了所提出的系统的性能。在广泛使用的语言可接受性Cola数据集上的实验结果表明，在准确度和MCC评分方面，所提出的技术表现优于这些基线方法。

Bidding via Clustering Ads Intentions: an Efficient Search Engine Marketing System for E-commerce
Authors Cheng Jie, Da Xu, Zigeng Wang, Lu Wang, Wei Shen
随着搜索引擎营销规模的增加，设计有效的竞标系统对于电子商务公司的成功变得最为倾向。现代工业级别竞标系统所面临的危急挑战包括1.目录是巨大的，相关的竞标特征具有高稀疏性2.大量的招标请求对离线和在线服务突出了显着的计算负担。利用外来的用户项目信息证明是必不可少的，以减轻稀疏问题，我们利用来自用户查询的自然语言信号和产品的上下文知识。特别地，我们通过变压器模型提取广告的矢量表示，并利用它们的几何关系来通过聚类构建协作竞标预测。这两个步骤也显着降低了出价评估和优化的计算应力。在本文中，我们介绍了沃尔玛电子商务搜索引擎营销的竞标系统的结束结构，每天成功地处理数千万个出价。我们分析了我们方法的在线和离线性能，并讨论了如何将其作为生产高效解决方案。

Comparative Error Analysis in Neural and Finite-state Models for Unsupervised Character-level Transduction
Authors Maria Ryskina, Eduard Hovy, Taylor Berg Kirkpatrick, Matthew R. Gormley
传统上，具有用于编码潜在过程的结构和语言知识的有限状态模型来解决了字符水平转导问题，而最近的方法依赖于序列的功率和灵活性，以便序列模型。专注于较少探索的无监督的学习场景，我们并排比较两个模型课程，并发现即使在实现可比性时，它们也倾向于进行不同类型的错误。我们使用两个无监督的任务分析不同错误类的分布，因为测试平台将非正式的罗马化文本转换为俄语，阿拉伯语和kannada的语言的本机脚本，并在一对密切相关的语言之间翻译塞尔维亚和波斯尼亚。最后，我们研究了在解码时间下将有限状态和序列序列模型的组合如何影响输出量度和定性地影响输出。

Charformer: Fast Character Transformers via Gradient-based Subword Tokenization
Authors Yi Tay, Vinh Q. Tran, Sebastian Ruder, Jai Gupta, Hyung Won Chung, Dara Bahri, Zhen Qin, Simon Baumgartner, Cong Yu, Donald Metzler
自然语言处理中的最先进模型依赖于单独的刚性流码销量算法，这限制了它们的泛化能力和对新设置的适应。在本文中，我们提出了一种新的模型归纳偏差，该偏置学习子字标记结束以作为模型的一部分结束。为此，我们介绍了一个基于软梯度的子字标记化模块GBST，它会自动从数据驱动方式中从字符中汲取潜在子字表示。具体地，GBST枚举候选子字块，并学会使用块评分网络将它们以职位明智的方式进行评分。我们另外引入Charformer，一个深度变压器模型集成了GBST并在字节级上运行。通过对英语胶水，多语言和嘈杂的文本数据集的大量实验，我们显示Charformer优于一系列竞争字节级基线，同时通常在PAR上执行基于序列的次字。此外，Charformer快速，提高了80 100乘以28 100的香草字节电平和次字变压器的速度，同时保持竞争质量。我们相信这项工作为高度性能的标记免费款式铺平了培训，这些款式完全结束。

Clinical Named Entity Recognition using Contextualized Token Representations
Authors Yichao Zhou, Chelsea Ju, J. Harry Caufield, Kevin Shih, Calvin Chen, Yizhou Sun, Kai Wei Chang, Peipei Ping, Wei Wang
临床名称实体识别CNER任务旨在将临床术语定位和分类为预定义的类别，例如诊断程序，疾病障碍，严重程度，药物，药物剂量和标志症状。 CNER促进对药物副作用的研究，包括鉴定新颖现象和人类聚焦信息提取。提取利益实体的现有方法侧重于使用静态字嵌入来代表每个单词。但是，一个单词可以具有不同的解释，这取决于句子的上下文。显然，静态词嵌入不足以整合一个单词的不同解释。为了克服这一挑战，已经引入了语境化词嵌入的技术，以基于其上下文更好地捕获每个单词的语义含义。这些语言模型中的两个，ELMO和Flair，已广泛用于自然语言处理领域，以在域通用文档上生成上下文化单词嵌入式。然而，这些嵌入式通常太一般，无法捕获特定结构域的词汇表之间的邻近。为了便于使用临床病例报告CCR的各种下游应用，我们预先培训了两个深刻的语境化语言模型，来自语言模型的临床嵌入式C Elmo和临床上下文串嵌入C Flair，使用来自PubMed Central的临床相关的药物。明确的实验表明，与静态字嵌入和域泛型语言模型相比，我们的模型获得了戏剧性的改进。

Dealing with training and test segmentation mismatch: FBK@IWSLT2021
Authors Sara Papi, Marco Gaido, Matteo Negri, Marco Turchi
本文介绍了FBK S系统向IWSLT 2021脱机语音翻译任务提交。我们参加了一个直接模型，它是一个基于变压器的架构，用于将英语语音音频数据翻译成德语文本。训练管线的特征在于知识蒸馏和两步精细调谐程序。知识蒸馏和第一微调步骤都在手动分段的实际和合成数据中进行，后者用在可用的Corpora上培训的MT系统产生。不同，第二微调步骤是在必须C V2 en de DataSet的随机分割上进行的。其主要目标是减少当在手动分段数据上培训的语音翻译模型时发生的性能下降，即在自动分段音频上评估像分割等句子等句子。实际，更现实的测试条件。出于相同的目的，在将它们传递到系统之前，将用于暂停音频内容暂停和产生的段长度的自定义混合分割过程。在推理时间，我们将该过程与基于语音活动检测Vad的基线分段方法进行了比较。我们的结果表明，所提出的混合方法的有效性，通过减少8.3至1.4 BLEU点的手动分段的差距。

Learning Language and Multimodal Privacy-Preserving Markers of Mood from Mobile Data
Authors Paul Pu Liang, Terrance Liu, Anna Cai, Michal Muszynski, Ryo Ishii, Nicholas Allen, Randy Auerbach, David Brent, Ruslan Salakhutdinov, Louis Philippe Morency
即使在具有普遍获得高级医疗保健的国家，心理健康状况也仍然是下降的。准确和有效地预测来自易于收集数据的情绪的能力对早期检测，干预和治疗心理健康障碍的若干重要意义。一个有望的数据源来帮助监控人类行为是每日智能手机使用。但是，在不通过个人方面的情况下，必须小心总结行为，而不识别用户。，个人身份信息或受保护的例如，种族，性别属性。在本文中，我们使用最近从自杀行为的青少年人口的移动行为的最近数据集研究日常情绪的行为标志。使用计算模型，我们发现移动键入文本的语言和多模式表示跨越键入的字符，单词，击键时间和应用程序使用是预测日常情绪的预测。但是，我们发现训练以预测情绪训练的型号通常还捕获其中间表示中的私人用户身份。为了解决这个问题，我们评估了在剩下的预测性同时扰乱用户身份的方法。通过将多模式表示与隐私保留学习结合起来，我们能够推送绩效隐私前沿。

A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021
Authors Ke Han Lu, Bo Han Fang, Kuan Yu Chen
在本文中，灵感来自Visionlanguage预训练模型的成功以及来自对抗攻击的培训的益处，我们通过纳入VQA挑战2021的两个概念来提出一种新型变换基础跨模型融合建模。具体地，所提出的模型是最重要的VINVL模型19的架构和对抗训练策略4的应用程序用于使模型稳健和广义。此外，我们的系统中也使用了两个实现技巧以获得更好的结果。实验表明，新颖的框架可以在VQAV2测试STD集上实现76.72。

Unsupervised Topic Segmentation of Meetings with BERT Embeddings
Authors Alessandro Solbiati, Kevin Heffernan, Georgios Damaskinos, Shivani Poddar, Shubham Modi, Jacques Cali
会议的主题分割是将多人会议成绩单划分为主题块的任务。由于收集和准确地注释大型数据集的困难，监督问题的方法已经证明难以应变。在本文中，我们可以使用预训练的神经结构来提高先前的无监督主题分段方法。我们介绍了一种基于BERT EMBODDINGS的无监督方法，该方法实现了15.5的错误率降低，以适用于两个流行的数据集的现有无监督方法，以满足成绩单。

Discovering novel drug-supplement interactions using a dietary supplements knowledge graph generated from the biomedical literature
Authors Dalton Schutte, Jake Vasilakes, Anu Bompelli, Yuqi Zhou, Marcelo Fiszman, Hua Xu, Halil Kilicoglu, Jeffrey R. Bishop, Terrence Adam, Rui Zhang
目的利用现有的生物医学NLP工具和DS域术语，产生一种含有膳食补充剂DS信息的新颖和全面的知识图，用于发现DS和药物之间的相互作用，或药物补充相互作用DSI。我们创建了SemRepds SemRep的SemRepds的扩展，能够通过利用UMLS中未发现的28,884个DS术语的DS特定术语idisk提取与摘要的语义关系。使用SemRepds处理了PubMed摘要来生成语义关系，然后使用基于PubMedbert的模型过滤，以消除在生成知识图表Suppkg之前的不正确的关系。两种途径用于识别潜在的DS药物相互作用，然后由医疗专业人员进行机械合理性评估。结果比较分析发现，SemRepds返回206.9更多DS关系和比SEMREP更多的DS实体。微调BERT模型获得了0.8605的F1得分，并删除了关系的43.86，与预过滤相比，提高了关系的精度26.4。 puppkg由2,928个DS特定节点组成。调查结果的手工审查确定了44个88提出的DS基因药物和3244例提出的DS Gene1功能基因2药物途径是机械性合理的。讨论使用SemRepds生成的额外关系，该Happkg用于在当前文献中找到未发现的合理DSI。通过Suppkg的性质，在没有扩展的DS术语的情况下，使用SEMREP不太可能发现这些相互作用。结论我们成功扩展了SEMREP，包括DS信息，并生产可用于寻找潜在的DS药物相互作用的Suppkg。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com