论文链接: Attentional Pooling for Action Recognition
project page:project page
代码链接:https://github.com/rohitgirdhar/AttentionalPoolingAction, 采用TensorFlow1.1.0和Slim来实现。
概述
2017年NIPS上的一篇关于动作识别的论文,文章提出了一个简单但令人惊讶的强大模型——attentional pooling,将注意力集中在动作识别和人与对象交互任务中,引入自下而上和自上而下的新推导作为双线性池化方法的低秩近似(通常用于细粒度分类),用其来代替CNN网络结构中最后pooling层常用的mean pooling或max pooling, 在 MPII, HICO 和 HMDB51(只在RGB数据上做了实验并对比)三个动作识别数据集上进行了实验,都取得了很好的结果。
此外,作者还提出利用人体姿态关键点对attention进行约束,实现方式就是在网络最后加上2个MLP来预测17通道的heat map,其中16个通道是人体姿态关键点,1个通道是 bottom-up attention 的 feature map。 通过最小化姿态关键点的loss和 attentional pooling的loss 的加权和,使得最