前言
前面看到谷歌发表的运用在机器翻译上的论文《Attention is all you need》,很是让人惊讶,这是一种全新的模型,与之前的经典的seq2seq模型改动较大,它完全摒弃了RNN或CNN神经网络,大大简化了模型的复杂度,而且效果还相当好。当然Attention模型可以单独使用,但这篇文章我们来看看Attention的机制及怎么与经典的seq2seq结合。
seq2seq
前面我们有详细的文章介绍了seq2seq的机制以及如何用TensorFlow来实现seq2seq。可到《深度学习的seq2seq模型》、《TensorFlow实现seq2seq》阅读。
seq2seq模型结构基本都大同小异,下面用一种常见结构进行说明,我们可以看到decoder将不同时刻的输入最后用一个状态C来表示,encoder部分的不同时刻的输出则为