阅读小结:Google's Neural Machine Translation System

原创 2016年10月01日 18:18:01

自然语言处理nlp中很多思想对cv也有用,所以决定看这篇paper。

然后我会从几篇前置的paper看起,搜集的相关资料也附在下面。其中一些短博客看起来比较快。

我也不是很懂nlp,求大家指点~


解释 word2vec: https://arxiv.org/pdf/1411.2738v4.pdf 

video解释hierarchy softmax: https://www.youtube.com/watch?v=B95LTf2rVWM  我搬运到B站http://www.bilibili.com/video/av6475775

讲为什么Char好的文章:http://colinmorris.github.io/blog/1b-words-char-embeddings (有一些聚类的例子)


1. Character-Aware Neural Language Model

arXiv:  http://cn.arxiv.org/pdf/1508.06615.pdf

知乎上别人的综述: https://zhuanlan.zhihu.com/p/21242454

这篇paper的关键都在下面这张Figure 1上。


图上的第一个矩阵的9列  对应  “absurdity”的 9个char,每个char用 charembeding得到的是4维特征。

好,以上这个4*9的矩阵就是这个网络的输入。语言模型的目标是  预测下一个单词。

然后在这个矩阵上 应用 h 个 不同 大小的CNN filter,他们的大小都是 4 * x的。

这样可以得到 h 个 卷积后的heatmap  为  1 *(9-h+1)的向量。

对这个向量再做max,得到一个value。那么,有h个filter,这样就得到了 h个 value,构成了‘absurdity‘的特征。一般长度为[100 ,1000]。

然后经过一次highway network,然后再是LSTM,随后是 hierarchical softmax。

这个模型参数省在少了一个word embeding的矩阵。虽然多了CNN,但filter也有限,参数没多多少。

 

2. Exploring the Limits of Language Modeling

arXiv:  http://arxiv.org/pdf/1602.02410v2.pdf

github: https://github.com/tensorflow/models/tree/master/lm_1b

第一次将上面文章的方法应用在大数据集(one billion word benchmark)上。

做了一些改进。其中3.1这部分不懂啊。。。。是用来分析noise data的?

论文3.2中说了,加一项每个单词的映射,(因为有些单词虽然char级别像,但意思很不同)来fix原来光用charCNN的问题。


3.Google's Neural Machine Translation System

这篇留个坑。估计过个十天半个月再更。

版权声明:本文为博主原创文章,未经博主允许不得转载。 举报

相关文章推荐

Google's Neural Machine Translation System

关键词:automated translation 自动翻译 谷歌传统的机器翻译系统:基于词组/短语的(phrase-based) 统计机器翻译 Statistical Machine Transl...

三大机器翻译技术的high-level概述:Neural, Rule-Based and Phrase-Based Machine Translation

http://blog.systransoft.com/how-does-neural-machine-translation-work/ In this issue of step-...

我是如何成为一名python大咖的?

人生苦短,都说必须python,那么我分享下我是如何从小白成为Python资深开发者的吧。2014年我大学刚毕业..

论文《NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE》总结

NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE论文来源:Bahdanau, D., Cho, K., & B...

神经网络机器翻译Neural Machine Translation(1): Encoder-Decoder Architecture

端到端的神经网络机器翻译(End-to-End Neural Machine Translation)是近几年兴起的一种全新的机器翻译方法。本文首先将简要介绍传统的统计机器翻译方法以及神经网络在机器翻...

NOTES of NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

NOTES of NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE (Dzmitry Bahdanau et ...

[持续更新] 神经机器翻译论文汇总 Papers on Neural Machine Translation

[持续更新] 神经机器翻译论文汇总Papers on Neural Machine Translation 博主在这里尽可能地整理些神经机器翻译相关的重要论文,大概按照下面的条目分类,不同类别中有互相...

神经网络机器翻译Neural Machine Translation(5): Gradient-based Optimization Algorithms

本文将介绍近两年应用到端到端的神经网络模型中的一些优化方法。 转载请注明出处:http://blog.csdn.net/u011414416/article/details/51567362本文将介绍...

Sampled Softmax 论文笔记:On Using Very Large Target Vocabulary for Neural Machine Translation

前言记录下Sampled Softmax的一些原理,相当于论文 《 On Using Very Large Target Vocabulary for Neural Machine Translat...
  • MebiuW
  • MebiuW
  • 2017-04-02 16:43
  • 1790

Neural Machine Translation(NMT)技术概述

在神经网络语言模型处理NLP领域,我做的研究一直都和文本分类相关,其实还有很多其他的应用领域,比方说:语言翻译、词性标注、命名实体识别等。感觉还是有必要了解一下如何用神经网络语言模型对这些应用进行建模...

<模型汇总_4>神经翻译模型(NMT)新宠_Adversarial Neural Machine Translation_Adversarial-NMT

前面介绍了牛逼的CNN(Convolutional Neural Network)、深度学习加速神器BNN(Binarized neural network)和深度学习中最贪玩的模型dual-le...
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)