论文:
《Pointing the Unknown Words》
作者:
Caglar Gulcehre、Sungjin Ahn、Ramesh Nallapati、Bowen Zhou、Yoshua Bengio
这篇论文主要是解决低频词和未出现(在测试集中)词的问题——统称“未登录词问题”。
采用了注意力模型。本文的思想是在遇到未登录词时,不要简单的将其记作:UNK,而是将未登录词分作两种情况:
- 第一种情况是可以在预设的词表中找到相似的词
- 第二种情况是可以使用原语句中的某个词进行替代(如下图)
所以根据这样的假设,本文使用了两个softmax层:
- 一个用于预测原输入语句中某个词的位置,对应于用原语句中的某个词替换,叫做location softmax
- 另一个用于预测在预定词表中的单词,叫做shortlist softmax
文中提到一般对于未登录词的处理分为三类:
- 提高softmax的计算速度,使得模型能够拥有更大的词表。 相关方法:层次softmaxÿ