Word Embedding论文阅读笔记 1. Google 2017—Attention is All You Need 主要内容 提出Transformer架构,用于机器翻译任务中。可替代RNN和Encoder-Decoder结构。仅使用attention机制(Self Attention + Multi-Head Attention),没有任何递归和卷积。 不仅在机器翻译任务中效果好,而且可并行,训练时间短。 架构 理解图中数据传递的意义(箭头); 理解attention的原理(见补充内容2); 位置信息通过Positional Encoding引入 补充内容 1. 机器翻译质量评估算法-BLEU 2. 深度学习中的注意力机制 3. Sigmoid函数和softmax函数 4. NLP研究发展方向2018年11月