NLP实验3——基于Transformer的机器翻译
本篇博客接着上次的基于注意力机制的RNN模型的机器翻译任务,对新手有一定参考价值,还请大佬多多指教。本文主要讲述采用Transformer模型进行机器翻译,采用编码器-解码器结构进行训练,总的来说简单地复现了论文中所提到的Transformer架构,完成了中日翻译和中英翻译两个任务的训练、预测等流程。技术背景部分简单的写出作者对Transformer架构的一些理解,如:多头注意力机制、掩码机制、位置编码等独特的技术,还有不借助循环神经网络,只需要靠注意力机制就能完成训练的Transformer模型。
原创
2024-06-24 21:09:07 ·
993 阅读 ·
0 评论