一篇基于Attention思想的动作识别论文
作者的主要贡献点主要有二
1、提出了一种简单注意力机制,将其辅助用于RNN模型中。
2、基于注意力机制创新了视频中多模态信息的融合方法。
Keyless Attention
文章的核心内容。作者简化了注意力机制,构建了一个简单的注意力结构。注意力机制的输入为{a1,a2,…,an}。输出为
其中ai的权重为:
综上可以简单的表示为 c = KeylessAtt({ai}).
Model
网络的结构体系基于双向LSTM,其中 (x1,x2,…,xT)可以表示为不同时间段的特征。LSTM中的 (h1,h2,…,hT)计算如下:
σ(·)代表sigmoid函数(上述懂LSTM则不难理解)。