《Video Action Transformer Network》阅读笔记(附Transformer的笔记内容)

本文介绍了Transformer模型在视频动作识别中的应用,通过Video Action Transformer Network,结合人物上下文信息进行动作识别。文章讨论了self-Attention机制,以及如何在模型中利用Transformer来处理序列信息,特别是在视频分析领域的实验结果表明,Transformer能够有效提高识别精度。
摘要由CSDN通过智能技术生成

Transformer

半年前刚开始踏入深度学习的时候,看李弘毅的视频了解了一点Transformer。这次的笔记也是基于李宏毅视频讲解的内容。

在处理seq2seq问题时,我们首先能想到的就时rnn,它的优势是能结合上下文把握全局,不足是,它的计算不能实现平行。如下图,要想得到b4,必须先计算出b1,b2,b3。但如果用cnn替换rnn那就可以实现并行了,只不过这样的cnn需要构建多层,如图右边(三角形就是cnn的结构)。
在这里插入图片描述
想结合上述rnn核cnn的优势,就有了self-Attention。

self-Attention

特点:能力和rnn一样,但优势在于可以同时计算b1-b4。
由a1,a2,a3,a4,乘以不同的w,得到相应的q,k,v。
在这里插入图片描述
然后拿每个q对每个k做Attention。如下所示:
在这里插入图片描述
得到阿法1,i后,进行softmax,然后再乘上各自的v,相加起来就得到b1了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值