【AI视野·今日NLP 自然语言处理论文速览 第二十期】Thu, 8 Jul 2021

79 篇文章 16 订阅

AI视野·今日CS.NLP 自然语言处理论文速览
Thu, 8 Jul 2021
Totally 25 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

DORA: Toward Policy Optimization for Task-oriented Dialogue System with Efficient Context
Authors Hyunmin Jeon, Gary Geunbae Lee
最近,通过使用潜在的行动来解决监督学习SL的缺点,加固学习RL已经应用于面向任务的对话系统。在本文中,我们提出了一个多域任务面向对话系统,称为对话系统,使用使用SL的有效上下文DORA优化重复行动策略,随后应用RL使用反复对话策略优化对话系统。此对话框策略与两个单词级别和高级策略一起循环生成显式系统操作。因此,通过使用考虑高效上下文而不是整个对话历史记录,通过使用显式系统操作策略在SL和RL步骤中清晰地优化DORA。系统操作既可解释和可控,则潜在的行为不是。 DORA在MultiWoz 2.0上提高了6.6点的成功率和10.9点。

Linear-time calculation of the expected sum of edge lengths in random projective linearizations of trees
Authors Llu s Alemany Puig, Ramon Ferrer i Cancho
句子的句法结构通常使用句法依赖树来表示。在过去几十年中,句法相关词语之间的距离的总和一直在较轻的。依赖距离的研究导致了依赖距离最小化原则的制定,从而排序句子中的单词以最小化该总和。已经定义了许多随机基线来进行关于语言的相关定量研究。最简单的随机基线是句子中单词无约束随机排列中的总和的预期值,即允许句子的单词的所有播种并同样可能。在这里,我们专注于句子的单词的流行基线随机投射排列,即句法依赖结构是投影的,是一个正式的约束,句子通常以语言满足。到目前为止,大致用句子的随机投影次衰减中的依赖性距离之和估计了Zn的成本的顺序的蒙特卡罗过程的期望,其中n是句子的单词数量和z是句子的数量样本数量较大的Z,估计的误差越低,但时间成本越大。在这里,我们呈现公式来计算该期望而没有误差的误差。此外,我们展示了星树最大化,并设计动态编程算法来检索最小化它的树木。

Lemmatization of Historical Old Literary Finnish Texts in Modern Orthography
Authors Mika H m l inen, Niko Partanen, Khalid Alnajjar
曾在老文学中写的文本代表了从16世纪开始在芬兰语中写的第一个文学作品。芬兰有几个项目,有数字化旧出版物,并为他们提供研究使用。但是,在这些数据中使用现代NLP方法构成了巨大的挑战。在本文中,我们提出了一种同时规范化和释放旧文学芬兰语的方法。我们最好的型号达到了Agricola和87.7在域名中的其他当代的文本中的文本中的96.3准确性。我们的方法是在Zenodo和Github上自由提供的。

Robustifying Multi-hop QA through Pseudo-Evidentiality Training
Authors Kyungjae Lee, Seung won Hwang, Sang eun Han, Dohyeon Lee
本文研究了多跳问题回答模型的偏置问题,无需正确推理就正确回答。强化这些模型的一种方法是监督不仅是答案,而且还具有正确的推理链。现有方向是向推销链接到培训模型,需要昂贵的额外注释。相比之下,我们提出了一种新的方法来学习证据,决定是否通过这种注释来支持答案预测是否得到了正确的证据。相反,我们比较答案信心的反事实变更,没有证据句子,以产生伪证明的注释。我们验证了我们在HotpotQA中设置的原始集合和挑战上的提出模型,表明我们的方法在多跳推理中是准确和稳健的。

Time-Aware Ancient Chinese Text Translation and Inference
Authors Ernie Chang, Yow Ting Shiue, Hui Syuan Yeh, Vera Demberg
在本文中,我们的目标是解决古代中文文本翻译的挑战1,由于差异的差异,质量差的翻译导致的语言间隙,2个大部分翻译缺少往往非常重要的语境信息了解文本。为此,我们通过提出以下方式,通过提出以下方式来提高过去的翻译技术,我们将任务作为多标签预测任务,其中模型预测翻译和其特定的时代。我们观察到,这有助于桥接语言间隙,因为时间上下文也被用作辅助信息。作为一种泛化的自然步骤,我们在现代中文翻译中枢转以产生多语言输出。我们在实验上显示了我们框架在生产质量翻译输出方面的效果,并在收集的任务特定并行语料库上验证了我们的框架。我们在并行语料库上验证了由按年代信息注释的并行语料库,并在实验中显示其在生产质量翻译输出方面的疗效。我们释放代码和数据

On Training Instance Selection for Few-Shot Neural Text Generation
Authors Ernie Chang, Xiaoyu Shen, Hui Syuan Yeh, Vera Demberg
大规模预磨料的语言模型导致文本生成的戏剧性改进。令人印象深刻的性能只能通过少数拍摄设置的少量实例来实现。尽管如此,几乎所有以前的工作都只是应用随机抽样来选择几个拍摄训练实例。对于选择策略以及它们将如何影响模型性能,没有关注。在这项工作中,我们在几次射击神经文本生成中展示了培训实例选择的研究。选择决定仅基于未标记的数据进行,以便识别应根据标签成本的某些预算注释的最有价值的数据点。基于少数拍摄训练实例应该多样化和代表整个数据分布的直觉,我们提出了一种简单的选择策略,具有K表示聚类。我们表明即使使用基于天真的聚类方法,生成模型也始终如一地占外于三个文本生成任务数据的随机抽样到文本生成,文档摘要和问题。我们希望这项工作能够在这一主要的未开发的地区呼吁更多地关注。

A Survey on Dialogue Summarization: Recent Advances and New Frontiers
Authors Xiachong Feng, Xiaocheng Feng, Bing Qin
随着对话系统和自然语言生成技术的发展,对话摘要的复苏引起了重大研究关注,旨在将原始对话的旨在融入较短的版本涵盖突出的信息。但是,仍然缺乏对这项任务的全面调查。为此,我们迈出了第一步,并对这一研究领域进行了彻底的审查。详细介绍了公开可用的研究数据集的概述,根据输入对话框的域以及在统一度量标准下组织排行榜的现有工作。此外,我们讨论了一些未来的方向并给出了我们的想法。我们希望这对对话摘要进行第一次调查可以为社区提供快速访问和普通图片,并激励未来的研究。

A Survey on Data Augmentation for Text Classification
Authors Markus Bayer, Marc Andr Kaufhold, Christian Reuter
数据增强,通过转换进行机器学习培训数据的人工创造,是一家在机器学习学科的广泛研究的研究领域。虽然它对于增加模型的泛化能力是有用的,但它也可以解决许多其他挑战和问题,从克服有限量的培训数据,以限制用于限制用于保护隐私的量数据。基于数据增强C1的目标和应用的精确描述以及现有工程的分类法C2,这项调查涉及文本分类的数据增强方法,旨在实现研究人员和从业者C3的简明和全面概述。我们从分类学中源性,我们将100多种方法分成12种不同的分组,并提供最先进的参考文献阐述哪种方法高度承诺的C4。最后,给出了可能构成未来工作的构建块的研究观点是C5。

Hierarchical Text Classification of Urdu News using Deep Neural Network
Authors Taimoor Ahmed Javed, Waseem Shahzad, Umair Arshad
数字文本在互联网上日益增加。分类大型和异构的数据集是非常具有挑战性的,这需要改进的信息处理方法来组织文本。为了对大尺寸的语料库进行分类,一种常用方法是使用分层文本分类,该分类旨在将文本数据分类为分层结构。已经提出了几种方法来解决文本的分类,但大多数研究已经以英语在英语中完成。本文提出了乌尔都语语言中新闻的分层文本分类的深入学习模型,包括来自8个在线新闻网站的51,325个句子,属于以下类型的体育技术和娱乐。本文的目标是TwoFold 1,在乌尔都语语言中开发一个大型人类注释数据集,用于分层文本分类和2分层使用我们所提出的LSTM机制分层分类为分层Multiplay LSTMS HMLSTM的建议模型。我们的模型由两个模块文本表示图层组成,用于获取我们使用Word2Vec嵌入的文本表示转换为向量和URDU分层LSTM层UHLSTML结束以结束完全连接的深层LSTM网络来执行自动特征学习,我们训练一个对于类层次结构的每个级别的LSTM层。我们对自己创建的数据集进行了广泛的实验,该数据集命名为URDU新闻数据集,用于分层文本分类UNDHTC。结果表明,我们所提出的方法对于分层文本分类非常有效,并且显着优于基线方法,并且还可以与与深神经模型相比的良好结果。

MedGPT: Medical Concept Prediction from Clinical Narratives
Authors Zeljko Kraljevic, Anthony Shek, Daniel Bean, Rebecca Bendayan, James Teo, Richard Dobson
电子健康记录EHRS中可用的数据为改变关怀的机会提供了改造的机会,并为一名患者提供更好照顾的最佳方式是从所有其他患者的数据中学习。患者病史的时间建模,考虑到过去事件的序列,可用于预测未来的事件,例如对新疾病的诊断或先前或现有疾病的并发症。虽然大多数预测方法主要使用EHRS中的结构化数据或单一域预测和结果的子集,但是使用Medgpt一种基于新型的变换器的流水线,其使用命名实体识别和链接工具,即Medcat到结构,并组织EHR​​S的自由文本部分预期一系列未来的医疗活动最初疾病。由于大部分EHR数据处于文本形式,因此这种方法来自患者的粒度和详细视图,同时引入适度的额外噪声。 Medgtpt有效地处理噪音和增加的粒度,并在预测来自STIP Collecth医院的现实世界医院数据上的前1名3和5名候选人的未来疾病时,实现了0.344,0.552和0.640 vs的精度0.344,0.552和0.633 ,伦敦,英国Textasciitilde600K患者。我们还表明,我们的模型通过在实验医学多项选择问题应答任务上测试它来捕获医学知识,并通过基于梯度的显着性方法检查模型的注意力焦点。

Efficient Transformer for Direct Speech Translation
Authors Belen Alastruey, Gerard I. G llego, Marta R. Costa juss
基于变压器的模型的出现超越了文本的障碍。使用语音时,必须面临问题的音频输入的序列长度不适合变压器。为了绕过这个问题,通常的方法是添加冲突卷积层,以在使用变压器之前减小序列长度。在本文中,我们提出了一种直接语音翻译的新方法,凭借高效的变压器,我们可以使用频谱图,而无需在变压器之前使用卷积层。这允许编码器直接从频谱图学习,并且没有任何信息丢失。我们创建了一个编码器解码器模型,其中编码器是一个高效的变压器,啰覆和解码器是传统的变压器解码器。我们的结果与标准方法获得的结果接近,表明这是一个有前途的研究方向。

EchoEA: Echo Information between Entities and Relations for Entity Alignment
Authors Xueyuan Lin, Haihong E, Wenyu Song, Haoran Luo
实体对齐EA是从不同的知识图形kgs发现引用现实世界中的同一对象的实体。它在自动集成了来自多个来源的KGS时起着重要作用。

SinSpell: A Comprehensive Spelling Checker for Sinhala
Authors Upuli Liyanapathirana, Kaumini Gunasinghe, Gihan Dias
我们建立了Sinspell,这是一个综合拼写检查的僧侣语言,由超过1600万人讲,主要是在斯里兰卡。然而,直到最近,僧伽罗没有拼写检查,覆盖范围可接受。 Sinspell仍然是Sinhala拼写检查器的唯一开源。 Sinspell识别可能的拼写错误并表达更正。它还包含一个自动校正明显错误的模块。为了保持准确性,SinsPell被设计为基于HunSpell的规则系统。从几个来源编制了一组单词并验证。这些分为形态学类,并确定了每个类的有效根,后缀和前缀,以及不规则词汇和例外的列表。分析了Sinhala文档中的错误的错误,并识别出常规错误的单词和类型的常见错误。我们发现最常见的错误是元音长度和类似的探测字母。还发现了由于不正确的键入和编码而导致的错误。该分析用于开发建议发生器和自动校正器。

Neural Natural Language Processing for Unstructured Data in Electronic Health Records: a Review
Authors Irene Li, Jessica Pan, Jeremy Goldwasser, Neha Verma, Wai Pan Wong, Muhammed Yavuz Nuzumlal , Benjamin Rosand, Yixin Li, Matthew Zhang, David Chang, R. Andrew Taylor, Harlan M. Krumholz, Dragomir Radev
电子健康记录EHRS,患者医疗保健事件和观察的数字集合,在医学中无处不在,对医疗保健交付,运营和研究至关重要。尽管存在这种核心作用,但EHRS难以自动处理。超过一半存储在EHR中的信息中的一半是非结构化文本的形式。提供者注意事项,操作报告并仍然在很大程度上尚未开发到次要使用。然而,最近,新的神经网络和自然语言处理的深度学习方法,NLP已经实现了相当大的进步,优于各种任务的传统统计和规则的系统。在本调查论文中,我们总结了EHR应用的当前神经NLP方法。我们专注于广泛的任务范围,即分类和预测,单词嵌入,提取,生成和其他主题,如问题应答,表型,知识图形,医疗对话,多种语言,可解释性等。

Answering Chinese Elementary School Social Study Multiple Choice Questions
Authors Daniel Lee, Chao Chun Liang, Keh Yih Su
我们提出了一种新的方法来回答中国小学社会研究多项选择问题。虽然BERT在阅读理解任务上表现出色的表现,但发现不擅长处理一些特定类型的问题,例如否定,以上所有问题,也不是上述所有问题。因此,我们将一部小型框架提出了用预处理器和答案选择器模块来解决上述挑战的新颖框架。实验结果表明,所提出的方法有效提高了伯特的性能,从而证明了用附加模块补充硼的可行性。

Kosp2e: Korean Speech to English Translation Corpus
Authors Won Ik Cho, Seok Min Kim, Hyunchang Cho, Nam Soo Kim
大多数讲话到文本S2T翻译研究使用英语演讲作为源头,这使得非英语扬声器难以利用S2T技术。对于某种语言,这个问题通过语料库建设解决,但从英语或更多的资源中越突出,这种缺陷和不足的人变得更加重要。在本文中,我们将KOSP2E介绍为KOSPI,一个允许韩语演讲以最终的方式翻译成英文文本的语料库。我们采用公开许可语音识别语料库,翻译语料库和口语语言,使我们的数据集自由地向公众提供,并通过管道和基于培训的方法检查表演。使用管道和各种端到端方案,我们基于英语假设,我们获得了21.3和18.0的最高BLEU,验证了我们数据的可行性。我们计划通过未来的社区贡献来补充其他目标语言的注释。

Topic Modeling in the Voynich Manuscript
Authors Rachel Sterneck, Annie Polish, Claire Bowern
本文使用Voynich Mantcript Beinecke MS408的主题建模介绍了调查结果。主题建模是一组计算方法,用于识别文本中的受试者的群集。我们使用潜在的Dirichlet分配,潜在语义分析和非负矩阵分解,将Voynich页面集群化为主题。然后,我们将从计算模型中派生的主题与从Voynich插图的群集进行比较,并从古图谱分析。我们发现计算上派生的集群与划线和主题的结合相匹配,根据插图,提供了voynich稿件包含有意义的文本的进一步证据。

Trans4E: Link Prediction on Scholarly Knowledge Graphs
Authors Mojtaba Nayyeri, Gokce Muge Cil, Sahar Vahdati, Francesco Osborne, Mahfuzur Rahman, Simone Angioni, Angelo Salatino, Diego Reforgiato Recupero, Nadezhda Vassilyeva, Enrico Motta, Jens Lehmann
知识图表的不完整性KGS是影响基于AI服务质量的重要问题。在学术域名中,KGS描述研究出版物通常缺乏重要信息,阻碍了我们分析和预测研究动态的能力。近年来,基于知识图形嵌入模型的链路预测方法成为这个问题的急救。在这项工作中,我们呈现TRANS4E,一种新的嵌入模型,特别适用于KG,其包括与N GG M的关系。这对于KGS来说是典型的,其分类了大量实体,例如研究文章,专利,人员到相对较小的类别。 Trans4e应用于两个大规模知识图表,学术界行业动态AIDA和Microsoft Academic Graph Mag,用于完成关于学习领域的信息,例如神经网络,机器学习,人工智能和隶属类型,例如,教育,公司,政府,提高所得数据的范围和准确性。我们评估了我们对AIDA,MAG和其他四个基准FB15K,FB15K 237,WN18和WN18RR的替代解决方案的方法。当使用低嵌入尺寸时,Trans4e优于其他型号,并在高维中获得竞争结果。

MACCIF-TDNN: Multi aspect aggregation of channel and context interdependence features in TDNN-based speaker verification
Authors Fangyuan Wang, Zhigang Song, Hongchen Jiang, Bo Xu
最近最近的扬声器验证结果的结果是通过X向量和后续变体实现的。在本文中,我们提出了一种新的网络架构,它基于时间延迟神经网络TDNN聚合来自多个方面的信道和上下文相互依存特征。首先,我们使用ECAPA TDNN中的SE Res2blocks以明确地模拟信道相互依存,以实现信道特征的自适应校准,并以多尺度方式处理与传统的基于TDNN的方法更粒度的方式。其次,我们探索使用变压器的编码器结构来在话语水平上模拟全局上下文相互依存特征,这可以捕获更好的长期时间特征。在汇集层之前,我们会聚合SE Res2blocks和变压器编码器的输出,以利用互补的通道和上下文相互依存特征。最后,而不是执行单一的统计统计汇总,我们还发现以多头方式扩展汇集方法,这可能是可以区分多个方面的特征。所提出的MACCIF TDNN架构可以在VOXECEB1测试集上优于基于技术的技术TDNN系统的大部分状态。

Android Security using NLP Techniques: A Review
Authors Sevil Sen, Burcu Can
Android是攻击者最具针对性的平台之一。虽然攻击者正在改进他们的技术,但基于静态和动态分析的传统解决方案也在不断发展。除应用程序代码外,Android应用程序还有一些元数据,可用于应用程序的安全性分析。与传统的应用程序分发机制不同,Android应用程序在移动市场中集中分发。因此,除应用程序包之外,此类市场包含应用程序开发人员和应用程序用户提供的应用信息。这种有用的文本数据的可用性以及用于处理和理解文本数据的自然语言处理NLP的进步,鼓励研究人员调查Android安全中的NLP技术的使用。特别是,基于NLP的安全解决方案在过去5年中加速,并证明是有用的。本研究审查了这些提案,并旨在通过在该领域提出艺术状态来探讨未来的研究的可能研究方向。我们主要关注四个类别的基于NLP的解决方案,描述了行为保真度,描述生成,隐私和恶意软件检测。

Advancing CTC-CRF Based End-to-End Speech Recognition with Wordpieces and Conformers
Authors Huahuan Zheng, Wenjie Peng, Zhijian Ou, Jinsong Zhang
在过去的几十年里,自动语音识别系统在很大程度上得到了改善,并且目前的系统主要是基于混合的混合动力和基于终端。最近提出的CTC CRF框架继承了混合方法的数据效率,以及结束到最终方法的简单性。在本文中,我们进一步推进了基于CTC CRF的ASR技术,以探讨了建模单元和神经结构。具体地,我们调查了能够在CTC CRF中成功应用的最近开发的织造型建模单元和符合子神经网络的技术。实验是在两个英语数据集交换机,LibrisPeech和来自Commonvoice的德语数据集进行的。实验结果表明,我符合者可以提高识别性能,显着识别性能,II基于纹理的系统对目标语言的电话基于TABLEME音素对应的目标语言进行了稍微差,例如,具有低程度的标记音素对应。英语,虽然当目标语言的对应程度高时,两个系统可以同样强劲执行。德语。

Structured Denoising Diffusion Models in Discrete State-Spaces
Authors Jacob Austin, Daniel Johnson, Jonathan Ho, Danny Tarlow, Rianne van den Berg
去噪扩散概率模型DDPMS Ho等人。 2020在连续状态空间中的图像和波形生成上显示了令人印象深刻的结果。在这里,我们引入离散的去噪扩散概率模型D3PMS,扩散像用于概括Hoogeboom等人的多聚体扩散模型的离散数据。 2021,超越具有均匀过渡概率的腐败过程。这包括利用转换矩阵的损坏,其在连续空间中模拟高斯内核,基于嵌入空间中的最近邻居的矩阵,以及引入吸收状态的矩阵。第三个允许我们在扩散模型和自回归和基于掩模的生成模型之间绘制连接。我们表明过渡矩阵的选择是一个重要的设计决策,导致图像和文本域中的结果改进。我们还引入了一种新的损失功能,将变分的下限与辅助交叉熵损耗相结合。对于文本,此模型类在字符级文本生成中实现了强劲的结果,同时在LM1B上缩放到大型词汇表。在图像数据集CiFar 10上,我们的模型接近样本质量并超出了连续空间DDPM模型的日志似然。

Deep Extrapolation for Attribute-Enhanced Generation
Authors Alvin Chan, Ali Madani, Ben Krause, Nikhil Naik
样本生成中的属性外推是对超越培训分布的深神经网络的挑战。我们制定了序列生成的外推的新任务,专注于自然语言和蛋白质,并提出了一种通过学习潜在空间增强属性的生成框架。在电影评论和计算的蛋白质稳定性数据集上培训,Genhance可以在训练期间产生强烈的正面审查和高度稳定的蛋白质序列,而不会暴露于类似的数据。我们释放了我们的基准任务和模型,为生物学和化学中的生成建模外推和数据驱动设计有助于研究。

Question Answering over Knowledge Graphs with Neural Machine Translation and Entity Linking
Authors Daniel Diomedi, Aidan Hogan
关于知识图表kgqa的问题的目标是通过知识图表找到自然语言问题的答案。最近的KGQA方法采用神经电机翻译NMT方法,其中自然语言问题被翻译成结构化查询语言。然而,NMT遭受了词汇问题,在训练期间可能没有出现问题的术语,妨碍他们的翻译。对于大知识图表描述的数百万个实体来说,这个问题特别有问题。我们宁愿提出一种kgqa方法,使得将实体的处理委托与联系EL系统的实体。然后,NMT用于创建具有由EL阶段中标识的实体填充的占位符的查询模板。插槽填充用于决定哪些实体填充哪个占位符。 QA的实验在Wikidata上显示,我们的方法优于纯洁的NMT,同时仍然存在强烈依赖,因为在训练期间看到类似的查询模板,与实体有关的错误大大减少了。

A Comparative Study of Modular and Joint Approaches for Speaker-Attributed ASR on Monaural Long-Form Audio
Authors Naoyuki Kanda, Xiong Xiao, Jian Wu, Tianyan Zhou, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Zhuo Chen, Takuya Yoshioka
扬声器归属的自动语音识别SA ASR是识别谁从多讲话者录制中讲述谁的任务。 SA ASR系统通常由多种模块组成,例如语音分离,扬声器深度和ASR。另一方面,考虑到联合优化,最近已经提出了对E2E SA ASR模型的结束,并提出了对模拟数据的有希望的结果。在本文中,我们展示了我们最近的研究,比较了对真正的单机录音中SA ASR的这种模块化和联合方法的比较。我们通过利用大规模培训数据,包括模块化和联合方法的艺术SA ASR系统的状态,包括75千个小时的ASR培训数据和扬声器代表学习的VOXECEB语料库。我们还提出了一种新的管道,在扬声器聚类后执行E2E SA ASR模型。我们对AMI会议语料库的评估显示,在使用小实际数据进行微调后,与最佳的模块化系统相比,联合系统的准确性更好地执行9.2 29.4,而模块化系统在这种微调之前更好地执行。我们还进行各种错误分析,以显示Monaural SA ASR的剩余问题。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值