//4.30—5.6
1.文章拟解决的问题
文章旨在介绍Transformer模型以及它的应用,详细介绍了模型的工作原理,并通过实验来验证该模型在机器翻译上的能力。
2.文章的创新点
(1)提出了一个名为Transformer的新的神经网络模型,采用自注意力机制处理输入序列的信息,通过多头注意力机制来实现对不同位置信息的关注
(2)介绍了“残差连接”的技术,用于训练深度神经网络
3.文章采用的技术
(1)自注意力机制(Self-Attention)。用于处理输入序列内的信息,同时关注序列中的所有的位置,来更好捕捉上下文的信息
(2)多头注意力机制(Multi-Head Attention)。能够将自注意力机制拆分成多个任务,每个任务都只关注部分特征,最后再将结果拼接起来,用于更好地去处理不同的表示空间
(3)残差连接(Residual Connection)。便于梯度传播,帮助训练深度神经网络,在网络的不同层直接添加跨层连接
(4)Softmax函数。将输出转换为概率分布,方便计算并且优化模型的参数
(5)标签平滑和dropout。提高模型的泛化能力,减少过拟合的现象
4.文章的结论及展望
4.1结论
作者提出全新架构,完全基于自注意力机制和位置编码搭建了Transformer模型,验证了注意力机制独立能够独立支撑序列建模的可行性。
4.2未来展望
论文提出来将Transformer扩展应用到多模态任务上,探索长序列的优化方法,从而能够适配文档翻译等情况的场景