机器学习笔记(8)Transformer(一):self-attention与block

这里是关于Transformer的基本介绍,其中提到对于Transformer来说self-attention模块的引入尤为重要,这里简单记录一下对于self-attention的简单理解。
首先self-attention模块的工作原理不很复杂,是说对于一个y=wx,其中w的计算是接借助xi与X中xi的补集点积得到的,这句话描述的不太清晰,但结合第四幅图基本就清晰了。
那么self=attention为什么可以工作哪?图四也给出了原因:self-attention关注的是两个矢量之间的信息传播,与RNN中的“循环”异曲同工,可以作为考虑“过去因素”的功能模块。

比如self-attention在词序列中的应用的大致展示如上图

如此简洁却功能强大的模块一定是有一些缺陷的,缺陷的罗列大致如上,其中最主要的是一份x扮演了三个重要角色,Softmax函数可能对非常大的输入值很敏感。

作者们解决的方法是使用三个kxk的矩阵(Wq, Wk, Wv)将x映射为q,k,v三个不同的向量(一般称为query,key和value矩阵),映射过程如上。其中需要注意q向量是在i下计算的,k与v向量是在j下计算的,重复此过程将xi与X中xi的补集都计算后求和即为self-attention模块的输出。
 

另外需要注意一处除以根号k的小细节,是为了归一化

self-attention在Transformer的实际应用中以Multi-head attention的形式出现,Multi-head attention看起来比较像是attention通过设定不同的初始矩阵Wq的集成。

这幅图介绍了Transformer模块(block)的基本构成,基本上就是self-attention加上non-linear两部分。

这部分展示了Transformer的整体结构,主要由编码器和解码器两部分组成。

这份可视化形象的解释了注意力机制的作用(可以理解为it需要根据上下文具体确定含义)

最后总结一下Tramsformer的优缺点:优点是与RNN相比,没有循环结构所以训练与推理的计算速度更快;与CNN相比Transformer对于输入的感受野更加大,考虑输入的范围更加的广。
Transformer的缺点模型过于与GPU适应性不太好;不能处理过于长的句子。解决的方法是半精度推理

RNN与Transformer的对比如上图,这里就不多阐述,之后我可能对两者进行一些试验的对比。

 

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小白 AI 日记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值