[ACL2016]Pointing the Unknown Words

最新推荐文章于 2019-08-11 11:17:00 发布

小妖精Fsky

最新推荐文章于 2019-08-11 11:17:00 发布

阅读量1.3k

点赞数

分类专栏： PaperNotes 文章标签： paper

本文链接：https://blog.csdn.net/appleml/article/details/76988385

版权

PaperNotes 专栏收录该内容

77 篇文章 0 订阅

订阅专栏

在很多NLP系统中，包括传统计数和深度学习模型中，稀疏词和未登录词的处理是一个很重要的问题，模型中用了两个softmaxt层用于预测条件语言模型中的next word,
其的生成有两种来源（1）原句子中的token(原句子指的是input sentence), (2)shortlist vocabulary(如果任务是机器翻译，shortlist vocabulary 是目标语言中部分词)
shortlist vocabulary的来源：以往的机器翻译任务，只有一个输出层，以我们的想法，输出层的维度是目标语言中单词的个数，这就产生了一个问题，如果目标语言单词量非常大，而且输出层是one-hot表示，那么输出层的神经元细胞数量也将非常大（假设有一万个单词，那么有一万个神经元），就大大增加了计算代价，所以就定义了word-shortlist , 将训练集中target language 频率很高的K个词放到word-shortlist中，其他词用UNK 表示
这种表示方法又有两种问题：（1）shortlist中一些词在 training data 中是rare word, 很难对其学一个好的representation, 导致性能不佳.（2）把很多词表示成UNK会丢失很多信息，即便是扩大shortlist的量这个问题也不能避免

在很多给出source sentence预测target text的NLP任务中，发现这样一种现象，target text中的一些词出现在source sentence中，比如说日期，实体信息等，所以本文的思想是讲target text中的token来源分为两类，一类是从source sentence中复制，另一类就是从shortlist中生成

目前解决稀疏词和未登录词目前做法可分为三类
（1）尽量提升速度，增加shortlist dictionary
(2) target text 中某些词复制source sentence(本文属于此类)
(3) 从更小单元入手选择character 而非word

普通 attention 做机器翻译的框架以及公式不做过多介绍，本文给出的框架如下：
这里写图片描述

网络框架有两个输出层：（1）普通的softmax层（2）point softmax层
也就是说target sequence中next token的输出可能是输出层（1）的结果，也可能是（2）的结果，到底该选择用那个输出层生成next token 呢，为了解决这个问题，本文引入了switching network, 该网络输出z $_t$ =1 时选择输出层（1），z $_t$ =0
时悬着point softmax输出层
特别注意的是如果要生成的词既不做shortlist中又不在context sequence中，就选择shortlist中的UNK