论文阅读:An end-to-end spatio-temporal attention model for human action recognition from skeleton data

目录

创新点(Main Contributions)

Proposed Method

Spatial Attention

Temperal Attention

Joint Training of the Networks

Regularized Objective Function

 


 

论文名称:An end-to-end spatio-temporal attention model for human action recognition from skeleto(2017 AAAI)

下载地址https://arxiv.org/pdf/1611.06067v1.pdf

 


 

创新点(Main Contributions)

作者提出了一种使用注意力机制去学习骨架点数据时间-空间特征的框架,来做动作识别的任务。

整个框架是由三部分组成,主 LSTM 网络空间维度上的注意力子网时间维度上的注意力子网

其中,在空间维度上的注意力子网中,作者使用其中的 LSTM 网络来学习当前帧节点和之前的帧节点之间的关系,形成对当前输入帧关节点数据的 attention map,自动挖掘出当前帧数据里哪些骨架点对动作识别的影响最大

时间维度上的注意力子网中,作者使用其中的 LSTM 网络来学习当前帧和之前的帧之间的关系,形成对当前输入帧数据的 attention map,自动学习哪些视频帧对动作识别的贡献最大

此外,作者采用一种交替的联合训练方式来训练网络,并设计了一个正则化的损失函数来防止模型训练得过拟合。

 


 

Proposed Method

 

 

Spatial Attention

在每个时间戳(time step) t,输入为:

 

the scoresfor indicating the importance of the K joints, and they are jointly obtained as 

 

For the k th joint, the activation as the joint-selection gate is computed as: 

 

Instead of assigning equal degrees of importance to all the joints x_t, the input to the main LSTM network is modulated to

 

 

Temperal Attention

 

The activation as the frame-selection gate can be computed as

 

For the sequence level classification, based on the output z_t of the main LSTM network and the temporal attention value \beta _t at each time step t.

the scores for C classes are the weighted summation of the scores at all time steps.

        其中,

 

The predicted probability being the i th class given a sequence X is

 

 

Joint Training of the Networks

 

 

Regularized Objective Function

The scalars λ1, λ2, and λ3 balance the contribution of the three regularization terms.

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值