NLP补充

NLP补充

论文名称: Do NLP Models Know Numbers? Probing Numeracy in Embeddings

推荐指数:★★★★

所属领域和方向:NLP方向,探究型工作

推荐理由:发表于EMNLP 2019,理解和处理数字(识数)的能力对于很多复杂的推理任务来说至关重要。目前,大多数自然语言处理模型处理文本中数字的方式与其他 token 一样,将这些数字作为分布式向量嵌入。这种处理方法足以捕捉数字吗?在本文中,研究者首先研究了 DROP 数据集上 SOTA 问答模型的数字推理能力,发现该模型擅长处理需要数字推理的问题,也就是说它已经能够捕捉数字。为了解这种能力是如何获取的,研究者在综合列表最大值(synthetic list maximum)、数字解码和加法任务上对 token 嵌入方法(如 BERT、GloVe 等)进行测试。例如,GloVe 和 word2vec 可以准确编码多达 1000 个数字。字符级嵌入甚至更加准确,其中在所有预训练方法中,ELMo 的数字捕捉能力最强大,而使用字词单元的 BERT 模型准确性不如 ELMo。

提供附件:

论文原文链接:

https://arxiv.org/pdf/1909.07940

论文名称: Bridging the Gap between Training and Inference for Neural Machine Translation

推荐指数:★★★★★

所属领域和方向:NLP方向,机器翻译

推荐理由:发表于ACL 2019,是今年ACL的最佳长文,机器翻译中存在两个主要问题,首先,神经机器翻译任务中模型训练的输入和模型推断的输入有很大的不同。在训练过程中,解码器生成字符的时候需要受到 Ground Truth,即参考句(Reference Sentence)的约束。而在推断过程中,生成的目标句中的每个字符完全根据模型给出的前一个字符进行推断,没有 Ground Truth 作为约束语境。神经机器翻译中的第二个问题来自 Teacher Forcing 方法。这一方法要求模型的生成结果必须和参考句一一对应。尽管这一方法可以强制约束模型的翻译结果,加快收敛,但是缺点显而易见。首先,不可能保证某种语言中的每一个词在另一种语言中都有对应的词语。其次,强制词语对应消除了语义相似的其他翻译结果,扼杀了翻译的多样性。本文提出一种新的训练方法解决两个问题,并在多个机器翻译数据集上取得了一定的性能提升,这种方法适用于许多领域的训练-测试不匹配的问题,如:阅读理解、语言模型。

提供附件:

论文原文链接:

https://arxiv.org/pdf/1906.02448.pdf

代码链接:

https://github.com/ictnlp/OR-NMT

论文名称: Attention is not Explanation

推荐指数:★★★★★

所属领域和方向:NLP方向,注意力机制,探索性工作

推荐理由:发表于NAACL 2019,通过一系列实验来探究注意力机制是否存在可解释性,结论是,虽然注意力机制能一定程度上提高效果,但是并不具有可解释性。

提供附件:

论文原文链接:

https://arxiv.org/pdf/1902.10186.pdf

论文名称: Attention is not not Explanation

推荐指数:★★★★

所属领域和方向:NLP方向,注意力机制,探索性工作

推荐理由:发表于EMNLP 2019,可以和上面一篇论文结合起来阅读。这篇论文认为前一篇的实验存在一些问题,并进行了另一角度的探究,实验结果也比较有趣。总的来说,注意力机制是存在一定可解释性的。

提供附件:

论文原文链接:

https://arxiv.org/pdf/1908.04626

论文名称: Star-Transformer

推荐指数:★★★★★

所属领域和方向:NLP方向

推荐理由:发表于NAACL 2019,原版的Transformer在任意两个token之间都存在联系,作者认为这样会引入偏置,并且不适用于小数据集。通过引入锚节点,Star-Transformer能够有效减少Transformer的参数量,并在一些任务上取得了很好地效果,属于Transformer改进中的经典工作。

提供附件:

论文原文链接:

https://arxiv.org/pdf/1902.09113

论文名称: Sentiment Tagging with Partial Labels using Modular Architectures

推荐指数:★★★★

所属领域和方向:NLP方向,序列标注

推荐理由:发表于ACL 2019,作者引入模块化结构,将序列标注的标签进行拆解成为多个子集,从而实现了任务的分解,并能减少标注成本,在方面情感分类任务上取得了很好的效果,本文的思想也可以应用到其他序列标注任务中。

提供附件:

论文原文链接:

https://www.aclweb.org/anthology/P19-1055.pdf

论文代码链接:

https://github.com/cosmozhang/Modular_Neural_CRF

论文名称:Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks

所属领域和方向:NLP方向

推荐理由: 这是来自ICLR的其中一篇最佳论文。这篇论文的研究动机有三:1.深度神经网络结构中,学习抽象的逐层特征表征是其中一大关键特征。2.深度神经网络结构的长期依赖性问题能通过 shortcuts 连接方法为反向传播过程得到改善3.好的归纳偏置有助于提高模型的泛化能力,并减少模型训练过程对大量数据的需求。这篇论文研究集成树结构到 LSTM 网络中,并通过归纳偏置和 cumax 函数,构建一种新颖的 ON-LSTM 模型,在多项 NLP 任务中都取得了不错的性能表现。

论文原文链接:

https://openreview.net/forum?id=B1l6qiR5F7

论文名称:Lattice CNNs for Matching Based Chinese Question Answering

所属领域和方向:NLP方向,文本理解

推荐理由:这是来自腾讯AI Lab的一篇文章。在问答系统中,匹配用户问题这种短文本,通常面临相同语义的单词和表达方式不唯一的挑战。而中文由于需要额外分词的语言导致这种现象尤为严重。在这篇论文中,研究者提出一个基于Lattice CNN的模型,利用在单词语义中多粒度的信息来更好地处理中文问答的匹配。在处理基于文本问答的问题中,实验结果表明他们所提出的模型LCNs模型可以提取word lattice中丰富且有差别的信息,且性能超过此前其他的匹配模型。

论文原文链接:

https://arxiv.org/abs/1902.09087

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值