阅读小结:Google's Neural Machine Translation System

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Layumi1993/article/details/52701049

自然语言处理nlp中很多思想对cv也有用,所以决定看这篇paper。

然后我会从几篇前置的paper看起,搜集的相关资料也附在下面。其中一些短博客看起来比较快。

我也不是很懂nlp,求大家指点~


解释 word2vec: https://arxiv.org/pdf/1411.2738v4.pdf 

video解释hierarchy softmax: https://www.youtube.com/watch?v=B95LTf2rVWM  我搬运到B站http://www.bilibili.com/video/av6475775

讲为什么Char好的文章:http://colinmorris.github.io/blog/1b-words-char-embeddings (有一些聚类的例子)


1. Character-Aware Neural Language Model

arXiv:  http://cn.arxiv.org/pdf/1508.06615.pdf

知乎上别人的综述: https://zhuanlan.zhihu.com/p/21242454

这篇paper的关键都在下面这张Figure 1上。


图上的第一个矩阵的9列  对应  “absurdity”的 9个char,每个char用 charembeding得到的是4维特征。

好,以上这个4*9的矩阵就是这个网络的输入。语言模型的目标是  预测下一个单词。

然后在这个矩阵上 应用 h 个 不同 大小的CNN filter,他们的大小都是 4 * x的。

这样可以得到 h 个 卷积后的heatmap  为  1 *(9-h+1)的向量。

对这个向量再做max,得到一个value。那么,有h个filter,这样就得到了 h个 value,构成了‘absurdity‘的特征。一般长度为[100 ,1000]。

然后经过一次highway network,然后再是LSTM,随后是 hierarchical softmax。

这个模型参数省在少了一个word embeding的矩阵。虽然多了CNN,但filter也有限,参数没多多少。

 

2. Exploring the Limits of Language Modeling

arXiv:  http://arxiv.org/pdf/1602.02410v2.pdf

github: https://github.com/tensorflow/models/tree/master/lm_1b

第一次将上面文章的方法应用在大数据集(one billion word benchmark)上。

做了一些改进。其中3.1这部分不懂啊。。。。是用来分析noise data的?

论文3.2中说了,加一项每个单词的映射,(因为有些单词虽然char级别像,但意思很不同)来fix原来光用charCNN的问题。


3.Google's Neural Machine Translation System

这篇留个坑。估计过个十天半个月再更。

阅读更多
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页