《论文阅读》Temporal Pyramid Network for Action Recognition

最新推荐文章于 2024-05-10 21:25:43 发布

未知丶丶

最新推荐文章于 2024-05-10 21:25:43 发布

阅读量1.2k

点赞数 1

分类专栏：深度学习计算机视觉文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_43310834/article/details/108370372

版权

深度学习同时被 2 个专栏收录

107 篇文章 13 订阅

订阅专栏

计算机视觉

91 篇文章 9 订阅

订阅专栏

留个笔记自用

Temporal Pyramid Network for Action Recognition

做什么

在这里插入图片描述
Action Recognition动作识别，这里文章主要探讨的是视频动作识别，即输入一段视频（一个图片序列）输出一个动作

做了什么

在这里插入图片描述
视频动作可能有快有慢，比如这里移动物体的速度快慢，会很大程度地影响它的判断，再可以想象一下一段视频是跑步和走路，两者中运动的速度很大程度影响判断。所以对动作实例的视觉节奏中的类内和类间差异进行精确建模，可能会显著改善动作识别准确度。

怎么做

在这里插入图片描述
首先是文章的核心，Temporal Pyramid Network时空金字塔网络TPN，也跟FPN一样是即插即用的。这里分为了5个部分，Backbone部分、Spatial Modulation部分、Temporal Modulation部分、Information Flow部分、Final Prediction部分。
首先是Backbone部分
在这里插入图片描述
这部分的输入是一段视频（即一段图片序列），这里文中提到了两种方法。第一种是帧采样，根据M个不同的帧采样（比如4帧取一张图T为8，8帧取一张图T为4）分别传送到一个单独的特征提取网络中提取出一系列的信息，但这样会缺少视频的速度类语义信息，因为图片间隔帧均相同，简单来说就是无法理解到快慢差异。第二种方法就是这里的结构，用深度金字塔的方式提取，这里的做法也类似FPN，比如一个特征内含有隔4帧取得几张图，隔8帧取的几张图，主要作用是不同层次特征的提取
在这里插入图片描述
第二部分是Spatial Modulation部分即调整模块，因为特征提取得到的结果是金字塔结构，输出的特征维度不相同，所以这里为了融合特征，对每个都进行卷积操作使它们回到同一维度下。

第三部分使Temporal Modulation，经过调整模块后，可以理解成各间隔帧采样得到的特征均在空间上变成了同一大小，于是文中直接使用了下采样将其深度进行改变，目的是为了模拟不同帧的采样
在这里插入图片描述
最后部分information Flow和Final Prediction，就是为了把前面收集得到的特征进行融合，这里文中提到了三种融合方式

这里公式中的➕就是矩阵逐元素相加，g表示上采样或者下采样，即不同帧间隔的转换，然后最后的final prediction就是对所有的信息rescale和拼接了
在这里插入图片描述
文章中间提到了整个框架训练的LOSS

首先是L_CE,o，这个LOSS就是原生的分类cross-entropy，然后是L_CE,i，这里用到的loss是auxiliary loss（辅助损失），这是加在 Spatial Modulation部分。以前有见过的辅助损失是在PSPnet中使用，简单来说就是在网络中途加一个LOSS以增强语义的监督效果。在这里M是输入feature的数量，所以在我的理解中这里的意思是对每个feature也就是每个帧间隔取出来的特征进行loss监督
在这里插入图片描述

总结

1.TPN即插即用，处理视频流的方式节省了很多branch，说不定还能用在action predict，然后再加一手快慢对抗
2.auxiliary loss在一定程度上能加强语义监督效果，这两个附带品都应该挺好用的

未知丶丶

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《论文阅读》Temporal Pyramid Network for Action Recognition

留个笔记自用Temporal Pyramid Network for Action Recognition做什么Action Recognition动作识别，这里文章主要探讨的是视频动作识别，即输入一段视频（一个图片序列）输出一个动作做了什么视频动作可能有快有慢，比如这里移动物体的速度快慢，会很大程度地影响它的判断，再可以想象一下一段视频是跑步和走路，两者中运动的速度很大程度影响判断。所以对动作实例的视觉节奏中的类内和类间差异进行精确建模，可能会显著改善动作识别准确度。怎么做首先是文章的
复制链接

扫一扫