《Attention is all you need》阅读报告

//4.30—5.6

1.文章拟解决的问题

        文章旨在介绍Transformer模型以及它的应用,详细介绍了模型的工作原理,并通过实验来验证该模型在机器翻译上的能力。

2.文章的创新点

        (1)提出了一个名为Transformer的新的神经网络模型,采用自注意力机制处理输入序列的信息,通过多头注意力机制来实现对不同位置信息的关注

        (2)介绍了“残差连接”的技术,用于训练深度神经网络

3.文章采用的技术

        (1)自注意力机制(Self-Attention)。用于处理输入序列内的信息,同时关注序列中的所有的位置,来更好捕捉上下文的信息

        (2)多头注意力机制(Multi-Head Attention)。能够将自注意力机制拆分成多个任务,每个任务都只关注部分特征,最后再将结果拼接起来,用于更好地去处理不同的表示空间

        (3)残差连接(Residual Connection)。便于梯度传播,帮助训练深度神经网络,在网络的不同层直接添加跨层连接

        (4)Softmax函数。将输出转换为概率分布,方便计算并且优化模型的参数

        (5)标签平滑和dropout。提高模型的泛化能力,减少过拟合的现象

4.文章的结论及展望
4.1结论

       作者提出全新架构,完全基于自注意力机制和位置编码搭建了Transformer模型,验证了注意力机制独立能够独立支撑序列建模的可行性。

4.2未来展望

        论文提出来将Transformer扩展应用到多模态任务上,探索长序列的优化方法,从而能够适配文档翻译等情况的场景

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值