【AI视野·今日NLP 自然语言处理论文速览第二十六期】Wed, 3 Nov 2021_基于文本数据的上下文熵v ader混合模型-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/121136255

AI视野·今日CS.NLP 自然语言处理论文速览
Wed, 3 Nov 2021
Totally 23 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Assessing Effectiveness of Using Internal Signals for Check-Worthy Claim Identification in Unlabeled Data for Automated Fact-Checking
Authors Archita Pathak, Rohini K. Srihari
虽然最近关于自动事实检查的工作主要集中在验证和解释声明上，声明列表很容易获得，但从文本中识别值得检查的声明句子仍然具有挑战性。当前的索赔识别模型依赖于文本中每个句子的手动注释，这是一项昂贵的任务，并且在多个域中频繁执行具有挑战性。本文探讨了从假新闻文章中识别值得检查的声明句子的方法，无论域如何，没有明确的句子级别注释。我们利用两个内部监督信号标题和抽象摘要根据语义相似性对句子进行排名。我们假设这个排名与句子的检查价值直接相关。为了评估该假设的有效性，我们构建了基于标题或抽象摘要利用句子排名的管道。排名靠前的句子用于证据检索的下游事实检查任务和管道的文章真实性预测。我们的研究结果表明，排名前 3 的句子包含足够的信息，用于对假新闻文章进行基于证据的事实检查。

Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density
Authors Juuso Eronen, Michal Ptaszynski, Fumito Masui, Aleksander Pohl, Gniewosz Leliwa, Michal Wroczynski
我们使用不同的语言支持的特征预处理方法研究特征密度 FD 的有效性，以估计数据集复杂性，进而用于在任何训练之前比较估计机器学习 ML 分类器的潜在性能。我们假设估计数据集复杂性可以减少所需的实验迭代次数。通过这种方式，我们可以优化 ML 模型的资源密集型训练，由于可用数据集大小的增加以及基于深度神经网络 DNN 的模型的日益普及，这正成为一个严重的问题。由于大规模 ML 模型的训练导致二氧化碳排放量惊人地增长，因此对更强大的计算资源的需求不断增加的问题也正在影响环境。该研究是在多个数据集上进行的，包括流行的数据集，例如用于训练典型情感分析模型的 Yelp 业务评论数据集，以及试图解决网络欺凌问题的较新数据集，这是一个严重的社会问题，也是一个更复杂的问题形成了语言表示的观点。我们使用针对多种语言（即英语、日语和波兰语）收集的网络欺凌数据集。

Towards text-based phishing detection
Authors Gilchan Park, Julia M. Taylor
本文报告了使用现成资源而不使用语义进行基于文本的网络钓鱼检测的实验。开发的算法是先前发布的工作的修改版本，可使用相同的工具。在识别网络钓鱼电子邮件方面获得的结果比之前报告的工作要好得多，但被错误识别为网络钓鱼的文本率略差。

LMdiff: A Visual Diff Tool to Compare Language Models
Authors Hendrik Strobelt, Benjamin Hoover, Arvind Satyanarayan, Sebastian Gehrmann
虽然不同的语言模型在 NLP 中无处不在，但很难对比它们的输出并确定一种可以比另一种更好地处理哪些上下文。为了解决这个问题，我们引入了 LMdiff，这是一种工具，可以直观地比较两个不同模型的概率分布，例如，通过微调、蒸馏或简单地使用不同的参数大小进行训练。 LMdiff 允许通过逐个标记研究文本实例来生成关于模型行为的假设，并通过从大型语料库中识别最有趣的短语来进一步帮助选择这些有趣的文本实例。我们展示了 LMdiff 在多个案例研究中生成假设的适用性。

UQuAD1.0: Development of an Urdu Question Answering Training Data for Machine Reading Comprehension
Authors Samreen Kazi 1 , Shakeel Khoja 1 1 School of Mathematics Computer Science, Institute of Business Administration, Karachi Pakistan
近年来，低资源机器阅读理解 MRC 取得了重大进展，模型在各种语言数据集上取得了显着的表现。但是，这些模型都没有针对乌尔都语进行定制。这项工作通过将机器翻译的 SQuAD 与源自维基百科文章和剑桥 O 级书籍的乌尔都语 RC 工作表的人工生成样本相结合，探索了乌尔都语问答数据集 UQuAD1.0 的半自动创建。 UQuAD1.0 是一个大规模的乌尔都语数据集，用于提取机器阅读理解任务，由 49k 对问题、段落和答案格式的问题答案组成。在 UQuAD1.0 中，45000 对 QA 是通过原始 SQuAD1.0 的机器翻译生成的，大约 4000 对是通过众包生成的。在本研究中，我们使用了两种基于 MRC 模型规则的基线模型和基于高级 Transformer 的模型。然而，我们发现后者的性能优于其他的，因此我们决定只专注于基于 Transformer 的架构。

HydraText: Multi-objective Optimization for Adversarial Textual Attack
Authors Shengcai Liu, Ning Lu, Cheng Chen, Chao Qian, Ke Tang
对抗性文本攻击领域在过去几年中显着增长，通常认为的目标是制作可以成功欺骗目标模型的对抗性示例。然而，攻击的不可察觉性也是一个基本目标，但之前的研究往往忽略了这一点。在这项工作中，我们提倡同时考虑这两个目标，并提出了一种称为 HydraText 的新型多重优化方法，具有可证明的性能保证，以实现具有高不可察觉性的成功攻击。我们通过在基于分数和基于决策的设置下的广泛实验证明了 HydraText 的功效，涉及五个基准数据集的五个现代 NLP 模型。与现有的最先进攻击相比，HydraText 始终如一地同时实现更高的成功率、更低的修改率以及与原始文本更高的语义相似度。一项人类评估研究表明，HydraText 制作的对抗性示例很好地保持了有效性和自然性。

Detection of Hate Speech using BERT and Hate Speech Word Embedding with Deep Model
Authors Hind Saleh, Areej Alhothali, Kawthar Moria
网络和社交媒体上产生的大量数据增加了检测在线仇恨言论的需求。检测仇恨言论将减少其对他人的负面影响和影响。自然语言处理 NLP 领域的大量工作旨在检测一般仇恨言论或检测特定的仇恨言论，例如宗教、种族、性别或性取向。仇恨社区倾向于在他们的交流中使用缩写、故意拼写错误和编码词来逃避检测，给仇恨言论检测任务增加了更多挑战。因此，词表示将在检测仇恨言论方面发挥越来越关键的作用。本文研究了在基于双向 LSTM 的深度模型中利用领域特定词嵌入来自动检测分类仇恨言论的可行性。此外，我们研究了转移学习语言模型 BERT 在仇恨言论问题上的使用作为二元分类任务。

Zero-Shot Translation using Diffusion Models
Authors Eliya Nachmani, Shaked Dovrat
在这项工作中，我们展示了一种用于神经机器翻译 NMT 的新方法，使用去噪扩散概率模型 DDPM，根据该领域的最新进展，针对文本数据进行调整。我们表明可以使用以源句子为条件的扩散模型非自回归地翻译句子。

System Combination for Grammatical Error Correction Based on Integer Programming
Authors Ruixi Lin, Hwee Tou Ng
在本文中，我们提出了一种基于非线性整数规划 IP 的语法纠错 GEC 系统组合方法。我们的方法基于错误类型优化了新的 F 分数目标，并结合了多个端到端 GEC 系统。建议的 IP 方法针对数据中存在的每种语法错误类型优化了单个最佳系统的选择。结合最先进的独立 GEC 系统的 IP 方法的实验表明，组合系统优于所有独立系统。在 BEA 2019 共享任务中结合两个最佳参与系统时，它的 F0.5 得分提高了 3.61，并达到了 73.08 的 F0.5 得分。

A Review of Dialogue Systems: From Trained Monkeys to Stochastic Parrots
Authors Atharv Singh Patlan, Shiven Tripathi, Shubham Korde
在口语对话系统中，我们的目标是部署人工智能来构建可以与人类交谈的自动对话代理。对话系统越来越多地被设计成不仅仅是模仿对话，而且随着时间的推移从这种交互中得到改进。在本次调查中，我们对多年来为构建对话系统而开发的方法进行了广泛的概述。对话系统的不同用例，从基于任务的系统到开放域聊天机器人，都需要特定的系统。从简单的基于规则的系统开始，研究已经朝着在大量数据集上训练的越来越复杂的架构发展，例如深度学习系统。出于类似于人类对话的直觉，使用强化学习将情感融入自然语言生成器方面取得了进展。虽然我们看到某些指标出现高度边际改进的趋势，但我们发现这些指标存在有限的理由，并且评估实践并不统一。

Integrating Pretrained Language Model for Dialogue Policy Learning
Authors Hongru Wang, Huimin Wang, Zezhong Wang, Kam Fai Wong
强化学习 RL 已被证明具有训练对话策略代理以最大化用户累积奖励的潜力。然而，奖励可能非常稀少，因为它通常只在对话会话结束时提供，这导致对可接受的对话代理的交互要求难以承受。与许多致力于优化策略和恢复奖励的努力不同，这些努力容易陷入局部最优和模型崩溃，我们将对抗训练分解为两个步骤 1 我们整合一个预训练的语言模型作为判别器来判断当前系统动作对于最后一个用户动作来说足够好，即文本下一个动作预测 2 鉴别器给出和额外的局部密集奖励来指导代理的探索。

Adapting to the Long Tail: A Meta-Analysis of Transfer Learning Research for Language Understanding Tasks
Authors Aakanksha Naik, Jill Lehman, Carolyn Rose
自然语言理解 NLU 在大型基准测试的推动下取得了巨大进步，并结合对迁移学习的研究以扩大其影响。基准由一小组频繁现象主导，留下一长串不常见现象的代表性不足。在这项工作中，我们反思了以下问题：迁移学习方法是否充分解决了长尾基准训练模型的性能由于基准没有列出排除的现象，我们使用宏观层面的维度来概念化长尾，例如代表性不足的类型、主题等. 我们通过对 100 篇关于 NLU 迁移学习的代表性论文的定性元分析来评估迁移学习研究的趋势。我们的分析提出了三个问题 i 迁移学习研究针对哪些长尾维度 ii 哪些特性有助于适应方法提高长尾性能 iii 哪些方法上的差距对长尾性能的负面影响最大我们对这些问题的回答突出了未来研究的主要途径在长尾的迁移学习中。

Diverse Distributions of Self-Supervised Tasks for Meta-Learning in NLP
Authors Trapit Bansal, Karthick Gunasekaran, Tong Wang, Tsendsuren Munkhdalai, Andrew McCallum
元学习认为学习问题是一个有效的学习过程，可以利用其过去的经验准确地解决新任务。然而，元学习的有效性关键取决于可用于训练的任务的分布，这通常被假设为先验已知或由有限的监督数据集构建而成。在这项工作中，我们的目标是通过考虑从未标记文本自动提出的自监督任务来为元学习提供任务分布，以实现 NLP 中的大规模元学习。我们通过考虑任务多样性、难度、类型、领域和课程的重要方面来设计自我监督任务的多种分布，并研究它们如何影响元学习性能。我们的分析表明，所有这些因素都有意义地改变了任务分布，其中一些因素显着提高了元学习模型的下游少镜头准确性。

Sequence Transduction with Graph-based Supervision
Authors Niko Moritz, Takaaki Hori, Shinji Watanabe, Jonathan Le Roux
循环神经网络传感器 RNN T 目标在构建当今最好的自动语音识别 ASR 系统用于生产方面发挥着重要作用。与连接主义时间分类 CTC 目标类似，RNN T 损失使用特定规则来定义如何生成一组对齐以形成全和训练的格子。然而，这些规则是否是最优的并且是否会导致最好的 ASR 结果，目前还不清楚。在这项工作中，我们提出了一个新的传感器目标函数，它概括了 RNN T 损失以接受标签的图形表示，从而提供了一个灵活有效的框架来操纵训练格，例如用于限制对齐或研究不同的转换规则。我们证明，与标准 RNN T 相比，基于传感器的具有 CTC 样点阵的 ASR 获得了更好的结果，同时还确保了严格的单调对齐，这将允许更好地优化解码过程。

Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey
Authors Bonan Min, Hayley Ross, Elior Sulem, Amir Pouran Ben Veyseh, Thien Huu Nguyen, Oscar Sainz, Eneko Agirre, Ilana Heinz, Dan Roth
BERT 等大型、预训练的基于转换器的语言模型已经彻底改变了自然语言处理 NLP 领域。我们对最近的工作进行了调查，这些工作使用这些大型语言模型通过预训练然后微调、提示或文本生成方法来解决 NLP 任务。我们还介绍了使用预训练语言模型来生成用于训练增强或其他目的的数据的方法。

Switch Point biased Self-Training: Re-purposing Pretrained Models for Code-Switching
Authors Parul Chopra, Sai Krishna Rallabandi, Alan W Black, Khyathi Raghavi Chandu
代码切换 CS 是一种普遍存在的现象，因为它在多语言社区中提供了便捷的交流方式，但它仍然是语言处理中一个未充分研究的问题。这背后的主要原因是 1 在利用大型预训练多语言模型方面付出的努力很少，2 缺乏带注释的数据。 CS中多语言模型性能低下的显着情况是语言的句内混合导致切换点。我们首先使用一套预训练模型对 4 个不同语言对上的两个序列标记任务 POS 和 NER 进行基准测试，以识别问题并选择性能最佳的模型 char BERT，其中解决了 1 。然后，我们提出了一种自我训练方法，通过利用未注释的数据寻址 2 使用切换点偏差来重新利用现有的预训练模型。我们最终证明了我们的方法通过减少切换点性能之间的差距，同时在两个任务中保留两个不同语言对的整体性能，在这两个任务上都表现良好。

Identifying causal associations in tweets using deep learning: Use case on diabetes-related tweets from 2017-2021
Authors Adrian Ahne 1 and 2 , Vivek Khetan 3 , Xavier Tannier 4 , Md Imbessat Hassan Rizvi 5 , Thomas Czernichow 2 , Francisco Orchard 2 , Charline Bour 6 , Andrew Fano 3 , Guy Fagherazzi 6 1 Paris Saclay University, UVSQ, Inserm, Gustave Roussy, Exposome and Heredity team, CESP, F 94805, Villejuif, France, 2 Epiconcept, Paris, France, 3 Accenture Labs, San Francisco, USA, 4 Sorbonne University, Inserm, University Sorbonne Paris Nord, Laboratoire d Informatique Medicale et d Ingenierie des Connaissances pour la e Sante, LIMICS, Paris, France, 5 Indian Institute of Science, Bengaluru, India, 6 Deep Digital Phenotyping Research Unit, Department of Precision Health, Luxembourg Institute of Health, Strassen, Luxembourg
目标利用机器学习方法，我们旨在从患者报告的糖尿病相关推文中提取显性和隐性因果关联，并提供一种工具，以从因果关系的角度更好地理解糖尿病在线社区中共享的意见、感受和观察。材料和方法在 2017 年 4 月至 2021 年 1 月期间，收集了超过 3000 万条与糖尿病相关的英文推文。应用深度学习和自然语言处理方法来关注具有个人和情感内容的推文。因果推文数据集被手动标记并用于训练 1 微调 Bertweet 模型以检测包含因果关联的因果句子 2 具有基于 BERT 的特征的 CRF 模型以提取可能的因果关联。因果在半监督方法中聚集，并在交互式因果网络中可视化。结果在不平衡的数据集中检测到了召回率为 68 的因果语句。具有基于 BERT 的特征的 CRF 模型优于微调的 BERT 模型，用于因果检测，宏观召回率为 68。这导致了 96,676 个具有因果关联的句子。糖尿病被确定为中心集群，其次是死亡和胰岛素。胰岛素定价相关的原因经常与死亡有关。结论开发了一种新的方法来检测因果句子并识别显性和隐性、单词和多词的原因以及相应的影响，如糖尿病相关推文中所表达的，利用基于 BERT 的架构并可视化为因果网络。

ASMDD: Arabic Speech Mispronunciation Detection Dataset
Authors Salah A. Aly, Abdelrahman Salah, Hesham M. Eraqi
介绍了埃及对话中最大的阿拉伯语语音错误检测数据集。该数据集由带注释的音频文件组成，代表阿拉伯语中最常用的前 100 个单词，由 100 名 2 至 8 岁的埃及儿童发音。

Personalized One-Shot Lipreading for an ALS Patient
Authors Bipasha Sen, Aditya Agarwal, Rudrabha Mukhopadhyay, Vinay Namboodiri, C V Jawahar
从说话者的嘴巴运动中读唇或从视觉上识别语音是一项具有挑战性和精神负担的任务。不幸的是，多种医疗状况迫使人们在日常生活中依赖这种技能进行必要的交流。患有肌萎缩侧索硬化症 ALS 的患者通常会失去对肌肉的控制，因此他们能够通过嘴唇运动来说话和交流。现有的大型数据集不关注医疗患者或策划与个人相关的个性化词汇。然而，收集患者的大规模数据集以训练现代数据饥渴的深度学习模型是极具挑战性的。在这项工作中，我们提出了一个个性化的网络，仅使用一个镜头示例对 ALS 患者进行唇读。我们依靠合成生成的嘴唇运动来增强一次性场景。基于变分编码器的域自适应技术用于弥合真实的合成域差距。我们的方法显着提高并实现了最高的 5accuracy，准确度为 83.2，相比之下，患者的可比方法达到的 62.6。

Recent Advances in End-to-End Automatic Speech Recognition
Authors Jinyu Li
最近，语音社区看到了从基于深度神经网络的混合建模转向用于自动语音识别 ASR 的端到端 E2E 建模的显着趋势。虽然 E2E 模型在 ASR 准确性方面的大多数基准测试中都达到了最先进的结果，但目前仍有很大比例的商业 ASR 系统使用混合模型。有很多实际因素会影响生产模型部署决策。几十年来一直针对生产进行优化的传统混合模型通常擅长这些因素。如果没有针对所有这些因素提供出色的解决方案，E2E 模式很难广泛商业化。

Cross-lingual Transfer for Speech Processing using Acoustic Language Similarity
Authors Peter Wu, Jiatong Shi, Yifan Zhong, Shinji Watanabe, Alan W Black
语音处理系统目前不支持绝大多数语言，部分原因是缺乏低资源语言的数据。跨语言传输提供了一种引人注目的方式，通过将高资源数据整合到低资源系统中来帮助弥合这一数字鸿沟。当前的跨语言算法在一些低资源语言的基于文本的任务和与语音相关的任务中取得了成功。然而，扩展语音系统以支持数百种低资源语言仍然没有解决。为了帮助弥合这一差距，我们提出了一种语言相似性方法，可以有效地识别数百种语言的声学跨语言转移对。

Low-Cost Algorithmic Recourse for Users With Uncertain Cost Functions
Authors Prateek Yadav, Peter Hase, Mohit Bansal
为受机器学习模型决策影响的人识别算法资源的问题最近备受关注。最近的一些作品模型用户产生了成本，这直接关系到用户的满意度。但是他们假设所有用户共享一个单一的全局成本函数。当用户对他们对某个功能采取行动的意愿以及与更改该功能相关的不同成本有不同的偏好时，这是一个不切实际的假设。在这项工作中，我们将用户特定成本函数的概念形式化，并引入了一种新方法来识别用户可操作的资源。默认情况下，我们假设用户成本函数对追索方法是隐藏的，尽管我们的框架允许用户部分或完全指定他们的偏好或成本函数。我们提出了一个目标函数，即预期最小成本 EMC，它基于两个关键思想 1 当向用户呈现一组选项时，当我们不知道用户可以采用的至少一个低成本解决方案时，这一点至关重要 2用户的真实成本函数，我们可以通过首先采样合理的成本函数来近似优化用户满意度，然后找到一个为用户实现良好成本的集合。我们使用一种新颖的离散优化算法来优化 EMC，成本优化本地搜索 COLS 可以保证在迭代过程中提高资源集质量。对具有模拟用户成本的流行的真实世界数据集进行的实验评估表明，与强基线方法相比，我们的方法满足的用户多达 25.89 个百分点。

Evaluating robustness of You Only Hear Once(YOHO) Algorithm on noisy audios in the VOICe Dataset
Authors Soham Tiwari, Kshitiz Lakhotia, Manjunath Mulimani
机器侦听中的声音事件检测 SED 需要识别音频文件中的不同声音，并识别音频中特定声音事件的开始和结束时间。 SED 可用于各种应用，例如音频监视、语音识别以及多媒体数据库中基于上下文的数据索引和检索。然而，在现实生活场景中，来自各种来源的音频很少没有任何干扰噪声或干扰。在本文中，我们测试了 You Only Hear Once YOHO 算法在嘈杂音频数据上的性能。受计算机视觉中的 You Only Look Once YOLO 算法的启发，YOHO 算法可以在音乐语音检测数据集、TUT Sound Event 和 Urban SED 数据集等数据集上匹配各种最先进算法的性能，但推理时间较短.在本文中，我们探讨了 YOHO 算法在 VOICe 数据集上的性能，该数据集包含具有不同声噪比 SNR 的噪声的音频文件。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com