【AI视野·今日NLP 自然语言处理论文速览 第十期】Fri, 18 Jun 2021

36 篇文章 9 订阅
17 篇文章 1 订阅

AI视野·今日CS.NLP 自然语言处理论文速览
Fri, 18 Jun 2021
Totally 32 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Scientific Language Models for Biomedical Knowledge Base Completion: An Empirical Study
Authors Rahul Nadkarni, David Wadden, Iz Beltagy, Noah A. Smith, Hannaneh Hajishirzi, Tom Hope
生物医学知识图表KGS在疾病,毒品和基因等实体上保持丰富的信息。预测这些图中的缺失链接可以提高许多重要应用,例如药物设计和重新展示。最近的工作表明,常规域语言模型LMS可以用作柔软的KG,并且它们可以为KG完成任务进行微调。在这项工作中,我们研究科学LMS进行KG完成,探索我们是否可以挖掘其潜在的知识以增强生物医学链接预测。我们评估了几个域特定的LMS,请在以可药物和疾病为中心的数据集上调整它们,以至于我们代表KGS并丰富了文本实体描述。我们将基于LM的模型与KG嵌入式模型集成使用,该模型使用路由器方法,该方法学习将每个输入示例分配给任何类型的模型,并在性能方面提供了大量提升。最后,我们展示了利用新颖的科学实体在电感环境中的LM模型的优势。我们的数据集和代码是公开可用的。

LoRA: Low-Rank Adaptation of Large Language Models
Authors Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen Zhu, Yuanzhi Li, Shean Wang, Weizhu Chen
自然语言处理的主导范式包括大规模对一般域数据的预培训和对特定任务或域的适应性。随着我们预先培训更大的模型,传统的微调,检测所有模型参数,变得不那么可行。用GPT 3 175B为例,部署许多独立的精细调谐模型实例,每个模型都有175B参数,非常昂贵。我们提出了低级别的适应或Lora,它冻结了预先训练的模型权重,并将可培训的秩分解矩阵注入变压器架构的每层,大大减少了下游任务的培训参数的数量。对于GPT 3,与全部微调相比,LORA可以将培训参数的数量减少10,000次,并将计算硬件要求通过3次。 LORA在GPT 3和GPT 2上以PAR或更好的调整,或者在GPT 3和GPT 2上进行微调,尽管具有较少的培训参数,培训吞吐量较高,并且没有额外的推理延迟。我们还为语言模型适应的排名缺乏提供了实证调查,揭示了LORA的效果。我们在GPT 2释放了我们的实施

Multi-head or Single-head? An Empirical Comparison for Transformer Training
Authors Liyuan Liu, Jialu Liu, Jiawei Han
多头关注在最近的变压器模型成功中发挥着至关重要的作用,这导致在各种应用中对传统关注的一致性改进。受欢迎的信念是,这种有效性源于共同参加多个位置的能力。在本文中,我们首先证明联合参加多个位置不是多主题的独特特征,因为多层单个头部注意力也参加多个位置并且更有效。然后,我们建议多头关注的主要优势是训练稳定性,因为它的层数量少于单个头部注意,当参加相同数量的位置。例如,24层16磁头变压器BERT大和384层单头变压器具有相同的总关注头数和大致相同的型号尺寸,而多头一个是显着浅薄的。同时,我们展示了随着深度学习的最新进展,我们可以成功稳定384层变压器的训练。随着训练难度不再是瓶颈,基本上更深的单头变压器在不调整超参数的情况下实现一致的性能改进。

Classifying vaccine sentiment tweets by modelling domain-specific representation and commonsense knowledge into context-aware attentive GRU
Authors Usman Naseem, Matloob Khushi, Jinman Kim, Adam G. Dunn
疫苗是一个重要的公共卫生措施,但疫苗犹豫不决,拒绝会产生低疫苗覆盖的集群,并降低疫苗接种计划的有效性。社交媒体提供了一个机会,可以通过包括地理位置和细节相关问题,估算出现疫苗接受的疫苗接受的风险。对社交媒体帖子进行分类的方法,例如疫苗相关推文,使用普通域文本培训的语言模型LMS。然而,从缺乏音调应力和手势线索的情况下造成疫苗情绪的挑战,并且可能并不总是有关于用户的其他信息,例如过去的推文或社会联系。 LMS中的另一个挑战是缺乏在本研究中的元数据,即表情符号,正面和负面词等的常识知识,以分类疫苗情绪推文的信息,我们提出了一种组成的新颖结束框架使用域特定LM的互联组件在疫苗相关的推文和模型中培训,并将型号知识转向双向门控经常性网络CK Bigru,具有语境意识注意。我们进一步利用句法,用户元数据和情感信息来捕捉推文的情绪。我们使用两个流行的疫苗相关的Twitter数据集进行了实验,并证明我们所提出的方法在识别Pro疫苗,抗疫苗和中性推文中占据了最佳状态。

End-to-End Cross-Domain Text-to-SQL Semantic Parsing with Auxiliary Task
Authors Peng Shi, Tao Yu, Patrick Ng, Zhiguo Wang
在这项工作中,我们专注于跨域文本中的两个重要组成部分到SQL语义解析任务模式链接和值填充。为了鼓励模型来了解更好的编码能力,我们提出了一个列选择辅助任务,通过使用显式学习目标来赋予编码器具有相关匹配能力的编码器。此外,考虑到大多数现有解析器忽略了填充了合成的SQL中的值,我们提出了两个价值填充方法将桥梁从现有的零拍摄语义解析器构建到现有世界应用程序。通过对蜘蛛的实验,我们提出的框架在基础上改进了在数据库内容不可用的执行精度和精确设置匹配准确性的基线上,详细分析揭示了未来的工作。

Modeling Worlds in Text
Authors Prithviraj Ammanabrolu, Mark O. Riedl
我们提供了一个数据集,可以创建可以构建基于知识图的世界互动叙事模式的学习代理。互动叙述或文本冒险游戏是部分可观察的环境,结构是长期困难或任务,其中代理人纯粹通过文本自然语言与世界互动。每个单独的游戏通常包含数百个位置,角色和对象,每个地点,字符和对象都具有自己的独特描述,提供了研究基于语言的代理在这些世界中运行所需的结构化存储器的问题。我们的数据集在丰富的自然语言观测和1个知识图之间提供了24198个映射,这些图表以地图2的形式反映了世界州的世界状态,保证造成这种特定世界州的变化。培训数据在多种类型中的27场比赛中收集,并在测试集中包含超过9个额外游戏的7836次储备实例。除了分析数据和相应的学习任务之外,我们还使用基于规则,问题应答和序列学习方法提供基线模型。

Topic Modeling and Progression of American Digital News Media During the Onset of the COVID-19 Pandemic
Authors Xiangpeng Wan, Michael C. Lucic, Hakim Ghazzai, Yehia Massoud
目前,世界是在一个严重的全球大流行中,这影响了人们生活的各个方面。因此,由于大流行的影响,存在于美国发表的Covid相关数字媒体文章。观众在合理的时间内难以消耗这大量信息。在本文中,我们开发了一种自然语言处理NLP管道,该管道能够将各种数字物品自动蒸馏到可管理的信息,同时还建模随时间讨论的进展主题,以帮助读者在迅速获得全面的透视上,以便在压迫问题上迅速获得全面的观点,即,Covid 19来自各种来源的大流行。我们通过首先在大流行发作期间首次收集大型Covid相关文章的大语料库来实现这些目标。之后,我们应用无监督和半监督的学习程序来总结文章,然后使用社区检测方法基于其相似性集群。接下来,我们使用BART算法识别每个物品群集的主题。最后,我们提供了基于NLP管道输出的详细数字媒体分析,并展示了围绕Covid 19的对话随着时间的推移。

Element Intervention for Open Relation Extraction
Authors Fangchao Liu, Lingyong Yan, Hongyu Lin, Xianpei Han, Le Sun
开放关系提取旨在涉及相同的基础关系的集群关系实例,这是一般关系提取的关键步骤。目前的OpenRe模型通常在远程监督生成的数据集上培训,这通常会导致不稳定并使模型容易折叠。在本文中,我们从因果关系中重新审视Openre的程序。通过使用结构因果模型制定Openre,我们认为上述问题源于与实体和上下文到关系类型的虚假相关性。为了解决这个问题,我们正在进行Emph Element Distention,它们分别介入上下文和实体,以获得它们的潜在因果效果。我们还基于实体排名和上下文对比提供了两种特定的干预措施。对无监督关系提取数据集的实验结果表明,我们的方法优于前面的现有技术,并且跨越不同的数据集。

Biomedical Interpretable Entity Representations
Authors Diego Garcia Olano, Yasumasa Onoe, Ioana Baldini, Joydeep Ghosh, Byron C. Wallace, Kush R. Varshney
预培训的语言模型诱导密集的实体表示,在实体为中心的NLP任务上提供强大的性能,但此类表示不会立即解释。这可能是模型在生物医学中的重要领域采用的障碍。最近有一般可解释的代表学习onoe和durrett,2020的工作,但这些域名不可知的表示不易转移到生物医学的重要领域。在本文中,我们通过将实体映射到医疗本体中的概念,从而创建一个新的实体类型系统和培训集,从医疗本体中的概念,以及这些类别的类别是我们的类型的维基百科页面。根据该映射,我们得出生物医学可解释实体表示生物学,其中尺寸对应于细粒度的实体类型,并且值是给定实体是相应类型的预测概率。我们提出了一种新颖的方法,用于利用Bier S最终稀疏和中间密集表示来促进模型和实体类型调试。我们表明,BIES在生物医学任务中实现了强大的性能,包括命名实体消歧和实体标签分类,并且我们提供错误分析,以突出显示其解释性的效用,特别是在低监督设置中。最后,我们提供了我们诱导的68K生物医学型系统,相应的3700万三级派生数据用于训练Bier模型和我们最好的表演模型。

Scalable Approach for Normalizing E-commerce Text Attributes (SANTA)
Authors Ravi Shankar Mishra, Kartik Mehta, Nikhil Rasiwasia
在本文中,我们呈现Santa,可扩展框架以自动归一化E Commerce属性值。赢取10 pro到一个固定的预定定义的规范值e。 Windows 10。早期的工作原理归一化专注于模糊字符串匹配,也称为本文的句法匹配。在这项工作中,我们首先对九个句法匹配算法进行了广泛的研究,并确定了余弦相似性导致最佳结果,显示出2.7常用的Jaccard指标的改进。接下来,我们认为单独的字符串相似度不足以满足属性归一化,因为许多表面形式需要超越句法匹配例如。 720p和hd是同义词。虽然例如无监督嵌入的语义技术。 Word2Vec FastText在Word相似性任务中显示出良好的结果,我们观察到它们表现不佳以区分密切规范形式,因为这些密切形式通常在类似的环境中发生。我们建议使用具有三态损耗的双网络来学习令牌嵌入式。我们提出了一个嵌入学习任务,利用原始属性值和产品标题,以在自我监督的方式中学习这些嵌入。我们表明,使用我们所提出的任务提供监督,可以改善基于句法和无监督的嵌入式基于统一化的技术。关于50个属性的真实世界属性标准化数据集的实验表明,使用我们提出的方法培训的嵌入式培训,获得了最佳字符串匹配的2.3改进,19.3改进了最佳无监督的嵌入。

pysentimiento: A Python Toolkit for Sentiment Analysis and SocialNLP tasks
Authors Juan Manuel P rez, Juan Carlos Giudici, Franco Luque
在过去几年中提取文本的意见已经收集了很多兴趣,因为我们在社交网络和其他地方遇到了前所未有的用户生成内容。社会研究人员在使用意见挖掘工具中发现的问题是,它们通常在商业API背后,而其他语言则不可用的是。为了解决这些问题,我们呈现PysentImiento,这是一个用于情意分析和其他社交NLP任务的多语种Python工具包。这种开放源库以黑色盒子的方式为西班牙语和英语带来艺术模型的状态,允许研究人员轻松访问这些技术。

DravidianCodeMix: Sentiment Analysis and Offensive Language Identification Dataset for Dravidian Languages in Code-Mixed Text
Authors Bharathi Raja Chakravarthi, Ruba Priyadharshini, Vigneshwaran Muralidaran, Navya Jose, Shardul Suryawanshi, Elizabeth Sherly, John P. McCrae
本文介绍了在社交媒体评论中生成的资源Dravidian语言中三个的多语言手动注释数据集的开发。 DataSet被注释为情绪分析和令人反感的语言识别,共计超过60,000名YouTube评论。 DataSet在泰米尔英语中组成了约44,000条评论,在Kannaada English大约7,000条评论中,在Malayalam英语中约有20,000条评论。数据由志愿者注释器手动注释,并在Krippendorff S Alpha中具有高度的互联网协议。数据集包含所有类型的代码混合现象,因为它包括来自多语言国家/地区的用户生成的内容。我们还使用基线实验来使用机器学习方法在数据集上建立基准。数据集可在github上使用

DocNLI: A Large-scale Dataset for Document-level Natural Language Inference
Authors Wenpeng Yin, Dragomir Radev, Caiming Xiong
自然语言推理NLI被制定为统一框架,用于解决各种NLP问题,如关系提取,问题回答,摘要等。由于大规模标记数据集的可用性,它已经在过去几年中积极研究。然而,大多数现有的研究专注于仅仅是句子级推断,这限制了在下游NLP问题中的NLI S应用范围。这项工作介绍了Docnli的新构建了一个用于文档级别的大规模数据集。 Docnli从广泛的NLP问题转换,涵盖多种文本。该处所始终保持在文件粒度,而假设的长度从单个句子变化到具有数百个单词的段落。此外,Docnli具有非常有限的工件,遗憾的是在一些流行的句子级NLI数据集中广泛存在。我们的实验表明,即使没有正常调整,Docnli上掠夺的模型也在流行的句子级基准上显示了有希望的性能,并概括为依赖于文档粒度推断的域NLP任务。任务特定的微调可以带来进一步的改进。可以找到数据,代码和预磨料模型

A Self-supervised Method for Entity Alignment
Authors Xiao Liu, Haoyun Hong, Xinghao Wang, Zeyi Chen, Evgeny Kharlamov, Yuxiao Dong, Jie Tang
实体对齐,旨在识别不同知识图表KG的等效实体,是构建大规模千克的基本问题。在其发展过程中,监管已被认为是准确的对准所必需的。灵感来自最近自我监督学习的进展,我们探讨了我们可以摆脱监督的程度。本任务的现有监督方法侧重于将每对正标记的实体拉到彼此附近。然而,我们的分析表明,实体对准的学习实际上可以从推动比拉动正向对齐的对关闭的采样的未标记的底片都受益更多。我们通过利用这一发现来设计两公斤的对比学习策略来呈现Selfrogg。基准数据集的广泛实验表明,无监督的Selfrokg可以匹配或实现具有艺术状态的可比结果。 Selfrokg的表现证明了自我监督的学习在KGS中的实体对齐提供了很大的潜力。

Lost in Interpreting: Speech Translation from Source or Interpreter?
Authors Dominik Mach ek, Mat ilinec, Ond ej Bojar
口译员促进多语言会议,但经济实惠的一组语言通常小于所需的语言。自动同时语音转换可以扩展为提供的语言集。我们调查如果这样的自动系统应该遵循原始扬声器,或者口译员以提高延迟的成本实现更好的翻译质量。

X-FACT: A New Benchmark Dataset for Multilingual Fact Checking
Authors Ashim Gupta, Vivek Srikumar
在这项工作中,我们介绍了最大的公开可用的多语言数据集,用于自然现有的现实世界索赔的实际验证。 DataSet包含25种语言的简短陈述,并由专家实况跳棋标记为真实性。 DataSet包括多语言评估基准测试,其均未借用多语言模型的域泛化和零拍摄能力。使用现有的基于多语言变压器的模型,我们开发了几种自动化事实检查模型,以及文本索赔,利用使用搜索引擎检索的新闻故事的额外元数据和证据。经验上,我们最好的模型达到了40分的F分,这表明我们的数据集是评估多语种事实检查模型的具有挑战性的基准。

Denoising Distantly Supervised Named Entity Recognition via a Hypergeometric Probabilistic Model
Authors Wenkai Zhang, Hongyu Lin, Xianpei Han, Le Sun, Huidan Liu, Zhicheng Wei, Nicholas Jing Yuan
去噪是基于遥远的监督的名称实体识别的基本步骤。以前的去噪方法主要基于实例达到置信统计数据,这忽略了不同数据集和实体类型上的潜在噪声分布的各种。这使得它们难以适应高噪声速率设置。在本文中,我们提出了一种高度测量学习HGL,一种用于远端监督Ner的去噪算法,其考虑了噪声分布和实例级别的信心。具体地,在神经网络训练期间,我们自然地在通过噪声率参数化的超细分布之后对每个批量进行模拟噪声样本。然后,批处理中的每个实例都被认为是根据其标签置信度的正确或嘈杂的攻击,以及这种采样批处理中的噪声分布。实验表明,HGL可以有效地去遥远监管检索的弱标记数据,因此导致训练型模型的显着改进。

De-biasing Distantly Supervised Named Entity Recognition via Causal Intervention
Authors Wenkai Zhang, Hongyu Lin, Xianpei Han, Le Sun
遥远的监督通过通过字典匹配自动生成培训实例来解决ner中的数据瓶颈。不幸的是,DS NER的学习是严重的字典偏见,这遭受了虚假的相关性,因此破坏了学习模型的有效性和鲁棒性。在本文中,我们从根本上通过结构因果模型SCM解释了字典偏差,将偏差分类为内部字典和词典偏差,并识别其原因。根据SCM,我们通过因果干预措施学习De偏见的DS NER。对于字典偏见,我们进行后门调整以消除字典混杂器引入的杂散相关性。对于字典偏见,我们提出了一个因果不变规范器,它将使DS Ner模型更加强大地对词典的扰动。四个数据集和三个DS NER模型的实验表明,我们的方法可以显着提高DS NER的性能。

Text2Event: Controllable Sequence-to-Structure Generation for End-to-end Event Extraction
Authors Yaojie Lu, Hongyu Lin, Jin Xu, Xianpei Han, Jialong Tang, Annan Li, Le Sun, Meng Liao, Shaoyi Chen
由于事件记录的复杂结构和文本和事件之间的语义差异,事件提取是挑战。传统方法通常通过将复杂结构预测任务分解为多个子任务来提取事件记录。在本文中,我们提出了Text2Event,一个序列到结构生成范例,可以直接以结尾直接从文本中提取事件。具体地,我们设计了一个统一事件提取的结构网络的序列,在推理期间的一个受约束的解码算法,以及用于高效模型学习的课程学习算法。实验结果表明,通过均匀地建模单一模型中的所有任务和普遍预测不同的标签,我们的方法可以在监督学习和传输学习设置中只使用记录级别注释来实现竞争性能。

Knowledgeable or Educated Guess? Revisiting Language Models as Knowledge Bases
Authors Boxi Cao, Hongyu Lin, Xianpei Han, Le Sun, Lingyong Yan, Meng Liao, Tong Xue, Jin Xu
以前的文献表明,预训练屏蔽语言模型如BERT可以在某些数据集上实现竞争性的事实知识提取性能,表明MLM可能是可靠的知识源。在本文中,我们进行了严格的研究,探讨了不同提取范式的MLMS的基础预测机制。通过调查MLM的行为,我们发现以前的体面性能主要归功于偏见的提示,该偏置了DataSet工件的偏见。此外,纳入说明性情况和外部背景,提高了知识预测,主要是由于实体类型指导和金色答案泄漏。我们的调查结果阐明了MLM的潜在预测机制,并强烈质疑前一个结论,即当前的MLMS可能是可靠的事实知识库。

An Empirical Study on Hyperparameter Optimization for Fine-Tuning Pre-trained Language Models
Authors Xueqing Liu, Chi Wang
精细调整前培训的语言模型的性能主要取决于HyperParameter配置。在本文中,我们调查了现代封路计优化方法HPO对微调预培训的语言模型的性能。首先,我们研究并报告三个HPO算法在胶合数据集上的艺术语言模型的两个状态上进行了三种。我们发现使用同一时间预算,由于时间预算不足和过度装备的两个原因,HPO通常无法倾销网格搜索。我们提出了两个一般策略和实验程序,以系统地解决了HPO的故障情况。通过应用程序,我们观察到HPO可以在搜索空间和时间预算中取得更合适的设置,但在某些情况下,仍然存在。最后,我们为未来的工作提出了建议。我们的实现可以找到

Can I Be of Further Assistance? Using Unstructured Knowledge Access to Improve Task-oriented Conversational Modeling
Authors Di Jin, Seokhwan Kim, Dilek Hakkani Tur
大多数关于面向任务的对话系统的工作都仅限于域API的有限覆盖范围。但是,用户的用户具有超出这些API范围的请求。这项工作侧重于通过合并外部,非结构化知识来源来响应这些超越API覆盖范围。我们的方法以流水线方式与序列的知识,知识选择和响应产生。我们为前两个步骤介绍新的数据增强方法,并证明使用从对话背景中提取的信息改善了知识选择和结束表演。通过实验,我们在DSTC9轨道1基准数据集上实现了自动和人类评估指标的最新状态,验证了我们贡献的有效性。

Probing Image-Language Transformers for Verb Understanding
Authors Lisa Anne Hendricks, Aida Nematzadeh
多模式图像语言变压器在依赖于微调的各种任务方面取得了令人印象深刻的结果,例如,视觉问题应答和图像检索。如果这些模型可以区分不同类型的动词,或者如果他们完全依赖于给定句子中的名词,我们有兴趣脱落借鉴其预用的表现的质量。为此,我们用英语收集图像句子对的数据集,其中由421个动词组成,这些动词是在预先预测数据中的视觉或常见的.e.,概念标题数据集。我们使用此数据集来评估佩带的拍摄图像语言变换器,并在与语音其他部分相比,在需要动词理解的情况下,它们更加失败。我们还调查了什么类别的动词特别具有挑战性。

Automatic Construction of Evaluation Suites for Natural Language Generation Datasets
Authors Simon Mille, Kaustubh D. Dhole, Saad Mahamood, Laura Perez Beltrachini, Varun Gangal, Mihir Kale, Emiel van Miltenburg, Sebastian Gehrmann
应用于NLP的机器学习方法通​​常通过在单个数字中总结其性能来进行评估,例如精度。由于大多数测试集被构造为I.I.D.来自整体数据的示例,这种方法过度简化了语言的复杂性,并鼓励对数据分布的头部过度接受。因此,稀有语言现象或关于不足的群体的文本并没有同样包含在评估中。为了鼓励更多的深度模型分析,研究人员提出了使用多个测试集,也称为挑战集,评估模型的特定能力。在本文中,我们开发了一个基于此想法的框架,该框架能够生成受控扰动并将子集识别到标量,文本到文本或数据到文本设置。通过将此框架应用于创业板代标,我们提出了一个由80个挑战集制成的评估套件,展示了它使其能够和脱落到当前一代模型的极限上的分析。

Specializing Multilingual Language Models: An Empirical Study
Authors Ethan C. Chau, Noah A. Smith
来自预介质的多语言语言模型的上下文化字表示已成为解决许多不同语言的自然语言任务的事实标准,但这种方法的成功远非普遍。对于这些模型很少或从未见过这些模型的语言,直接使用这些模型通常会导致次优表示或使用数据,激励额外的模型适应来实现相当强烈的性能。在这项工作中,我们研究了这种低资源设置词汇增强和脚本音译的两种这种适应的性能,可扩展性和交互。我们对九种多种低资源语言的一组三项任务的评估产生了混合的结果,维护了这些方法的生存能力,同时提高了如何在如何最佳地适应低资源设置的新问题。

Disentangling Online Chats with DAG-Structured LSTMs
Authors Duccio Pappadopulo, Lisa Bauer, Marco Farina, Ozan rsoy, Mohit Bansal
许多现代消息系统允许许多用户之间快速和同步的文本通信。得到的消息序列隐藏了一种更复杂的结构,其中独立的子对话彼此交织。这对旨在了解聊天日志内容或收集信息的任何任务构成挑战。解开这些对话的能力,然后不像许多下游任务的成功,如摘要和问题应答。伴随用户转弯的文本,用户提到的课程的结构化信息用作需要遵循对话的参与者本身的提示,并且已被证明对解剖学很重要。 DAG LSTMS,树LSTM的概括,可以处理指导的无循环依赖性,是包含此类信息及其非连续性的自然方式。在本文中,我们将DAG LSTMS应用于对话解剖学任务。我们在Ubuntu IRC数据集上执行我们的实验。我们表明,我们提出的小说模型实现了艺术状态,就恢复关系答复的任务,对其他解剖学指标具有竞争力。

Learning Knowledge Graph-based World Models of Textual Environments
Authors Prithviraj Ammanabrolu, Mark O. Riedl
世界模型改善了学习代理的能力,在互动和所在的环境中有效运行。这项工作侧重于建立基于文本的游戏环境的世界模型的任务。基于文本的游戏或互动叙述,是使用文本自然语言感知和与世界互动的强化学习环境。这些环境包含长,多步拼图或通过填充数百个字符,位置和对象的世界编织的任务。我们的世界模型在代表世界作为知识图表时,我们的世界模型将同时1预测由代理行动造成的世界造成的变化,并且2生成在世界上运营所需的上下文相关的自然语言行动。通过利用知识图和动作的固有结构,将此任务框架作为一组序列生成问题,并介绍基于变压器的多任务架构和训练它的丢失函数。在看完文本世界之前,零射击烧蚀研究表明,我们的方法论明显优于现有的文本世界建模技术以及我们每个贡献的重要性。

Do Large Scale Molecular Language Representations Capture Important Structural Information?
Authors Jerret Ross, Brian Belgodere, Vijil Chenthamarakshan, Inkit Padhi, Youssef Mroueh, Payel Das
预测来自分子结构的化学性质在许多应用中具有重要意义,包括药物发现和材料设计。基于机器学习的分子特性预测使得与例如密度泛函理论DFT计算相比,能够以更少的复杂性实现精确预测的承诺。从分子图中提取的特征,以监督方式使用图形神经网络,已成为这种任务的强基线。然而,庞大的化学空间与标签的有限可用性一起使受监督的学习挑战,呼吁学习通用分子表示。最近,大型未标记语料库上的预训练的变压器语言模型PTLMS已经产生了最新的状态,导致许多下游自然语言处理任务。灵感来自这种发展,在这里我们呈现通过训练高效变压器编码器模型而获得的分子嵌入,称为Molformer。该模型采用线性关注机制,对来自Pubchem和锌数据集的1D微笑序列的高度寄生训练。实验表明,与现有的基于曲线图和基于指纹的监督学习基线相比,学习的分子表示竞争性地表现得很有竞争力,关于QM8和QM9分子的预测性质的具有挑战性任务。 MOLFORMERR表示的其他任务特定调整可提高这些属性预测基准的性能。这些结果提供了令人鼓舞的证据,即大规模的分子语言模型可以捕获足够的结构信息,以便能够准确地预测量子化学性质和超越。

STAN: A stuttering therapy analysis helper
Authors Sebastian P. Bayerl, Marc Wenninger, Jochen Schmidt, Alexander Wolff von Gudenberg, Korbinian Riedhammer
口吃是由重复的复杂语音障碍,声音,音节或言语和封口口语的延长。具体的口吃行为强烈不同,因此需要个性化治疗。治疗课程要求治疗师的高度浓度。我们介绍了一个援助言语治疗师在口吃治疗师的系统。这种自动反馈系统可以降低治疗师上的载荷,从而使得能够更具频率的疗法,以及允许分类在多种治疗会话的跨度上。

ASR Adaptation for E-commerce Chatbots using Cross-Utterance Context and Multi-Task Language Modeling
Authors Ashish Shenoy, Sravan Bodapati, Katrin Kirchhoff
自动语音识别ASR对时隙实体的鲁棒性在涉及货币交易和购买的电子商务语音助手中至关重要。随着有效的域适应,它直观地,交叉话语上下文提示在歧义域特定内容词语中发挥着重要作用。在本文中,我们调查了各种技术来提高变压器XL神经语言模型NLM的变压器XL神经语言模型NLM以重振ASR N最佳假设。为了改善上下文化,我们利用转位对话行为以及交叉话语上下文携带。此外,要将我们的域普通NLM调整到电子商务,我们使用从域数据中的Fineetuned Masked LM派生的eMbeddings。最后,为了提高域内容词的稳健性,我们提出了一个多任务模型,可以共同执行内容词检测和语言建模任务。与非上下文LSTM LM基线相比,我们最好的NLM调节器导致内容WER减少19.2的ECURCE AUDY测试集和6.4的插槽标签F1改进。

Scaling Laws for Acoustic Models
Authors Jasha Droppo, Oguz Elibol
最近有一个机器学习趋势,通过越来越多的模型来提高模型质量,以前认为是不合理的。最近的工作表明,具有跨熵物体功能的自回归生成模型表现出平滑的电力法律关系,或扩展法律,从模型大小,训练集尺寸和可用计算预算中预测模型质量。这些缩放法律允许人们选择近乎最佳的超参数给出了可用培训数据,模型参数计数或培训计算预算的约束。在本文中,我们展示了具有自动预测编码损失的声学模型表现得好像它们受到类似的缩放法则。我们将以前的工作扩展到由于模型大小而共同预测损失,以训练设定规模,以及任务的固有不可缩短的损失。我们发现,缩放法律在模型大小和训练集大小上准确地匹配模型性能超过两个数量级,并对模型性能的限制进行预测。

Layer Pruning on Demand with Intermediate CTC
Authors Jaesong Lee, Jingu Kang, Shinji Watanabe
在移动嵌入式设备上部署端到端自动语音识别ASR模型是一个具有挑战性的任务,因为在实践中动态地改变了设备计算能力和能量消耗要求。为了克服这个问题,我们为基于连接主义时间分类CTC的ASR提出了一种培训和修剪方法,这允许在运行时减少模型深度,而无需任何额外的微调。为了实现目标,我们采用了两个正则化方法,中间CTC和随机深度,培训了在修剪后性能不会降低的模型。我们使用奇异矢量规范相关性分析SVCCA的层行为深入分析,以及寻找安全修剪的层的高效策略。使用该方法,我们表明,可以在各种深度提取变压器CTC模型,在GPU上将实时时间因数改善为0.005至0.002,而每个修剪的子模型保持了相同深度的单独培训模型的精度。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值