《论文阅读》Temporal Pyramid Network for Action Recognition

留个笔记自用

Temporal Pyramid Network for Action Recognition

做什么

在这里插入图片描述
Action Recognition动作识别,这里文章主要探讨的是视频动作识别,即输入一段视频(一个图片序列)输出一个动作

做了什么

在这里插入图片描述
视频动作可能有快有慢,比如这里移动物体的速度快慢,会很大程度地影响它的判断,再可以想象一下一段视频是跑步和走路,两者中运动的速度很大程度影响判断。所以对动作实例的视觉节奏中的类内和类间差异进行精确建模,可能会显著改善动作识别准确度。

怎么做

在这里插入图片描述
首先是文章的核心,Temporal Pyramid Network时空金字塔网络TPN,也跟FPN一样是即插即用的。这里分为了5个部分,Backbone部分、Spatial Modulation部分、Temporal Modulation部分、Information Flow部分、Final Prediction部分。
首先是Backbone部分
在这里插入图片描述
这部分的输入是一段视频(即一段图片序列),这里文中提到了两种方法。第一种是帧采样,根据M个不同的帧采样(比如4帧取一张图T为8,8帧取一张图T为4)分别传送到一个单独的特征提取网络中提取出一系列的信息,但这样会缺少视频的速度类语义信息,因为图片间隔帧均相同,简单来说就是无法理解到快慢差异。第二种方法就是这里的结构,用深度金字塔的方式提取,这里的做法也类似FPN,比如一个特征内含有隔4帧取得几张图,隔8帧取的几张图,主要作用是不同层次特征的提取
在这里插入图片描述
第二部分是Spatial Modulation部分即调整模块,因为特征提取得到的结果是金字塔结构,输出的特征维度不相同,所以这里为了融合特征,对每个都进行卷积操作使它们回到同一维度下。
在这里插入图片描述
第三部分使Temporal Modulation,经过调整模块后,可以理解成各间隔帧采样得到的特征均在空间上变成了同一大小,于是文中直接使用了下采样将其深度进行改变,目的是为了模拟不同帧的采样
在这里插入图片描述
最后部分information Flow和Final Prediction,就是为了把前面收集得到的特征进行融合,这里文中提到了三种融合方式
在这里插入图片描述
这里公式中的➕就是矩阵逐元素相加,g表示上采样或者下采样,即不同帧间隔的转换,然后最后的final prediction就是对所有的信息rescale和拼接了
在这里插入图片描述
文章中间提到了整个框架训练的LOSS
在这里插入图片描述
首先是LCE,o,这个LOSS就是原生的分类cross-entropy,然后是LCE,i,这里用到的loss是auxiliary loss(辅助损失),这是加在 Spatial Modulation部分。以前有见过的辅助损失是在PSPnet中使用,简单来说就是在网络中途加一个LOSS以增强语义的监督效果。在这里M是输入feature的数量,所以在我的理解中这里的意思是对每个feature也就是每个帧间隔取出来的特征进行loss监督
在这里插入图片描述

总结

1.TPN即插即用,处理视频流的方式节省了很多branch,说不定还能用在action predict,然后再加一手快慢对抗
2.auxiliary loss在一定程度上能加强语义监督效果,这两个附带品都应该挺好用的

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值