video analysis 论文阅读-TSN

最新推荐文章于 2022-12-06 09:40:09 发布

X.mw

最新推荐文章于 2022-12-06 09:40:09 发布

阅读量455

点赞数

分类专栏：视频理解文章标签：计算机视觉

本文链接：https://blog.csdn.net/X_m_w/article/details/104689921

版权

Temporal Segment Networks: Towards Good Practices for Deep Action Recognition本文延续了双流网络，并考虑到计算花费改善了视频输入形式，提出了新的网络TSN，并且探索了一些实践方法（数据扩充，光流输入其他形式）。虽然文章比较老，但是实验过程以及对数据的处理值得参考。论文主要贡献：提出了TSN（Temporal Segme...

摘要由CSDN通过智能技术生成

Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

本文延续了双流网络，并考虑到计算花费改善了视频输入形式，提出了新的网络TSN，并且探索了一些实践方法（数据扩充，光流输入其他形式）。虽然文章比较老，但是实验过程以及对数据的处理值得参考。
论文主要贡献：提出了TSN（Temporal Segment Networks），基于长范围时间结构（long-range temporal structure）建模，结合了稀疏时间采样策略（sparse temporal sampling strategy）和视频级监督（video-level supervision）来保证使用整段视频时学习得有效和高效。在TSN的帮助下，研究了一系列关于视频数据学习卷积网络的良好实践数据集表现：HMDB51(69.4%)、UCF101（94.2%）

3 Action Recognition with Temporal Segment Networks

对于以下内容将“片段”代表文章中“snippet”，“段”代表文章中“segment”

3.1 Temporal Segment Networks

之前方法都是对单帧图像处理，忽略了动作上下文信息；而采用多帧光流处理的方法，计算力消耗很大。针对以上问题，文章提出TSN（Temporal Segment Networks）如图1所示对整个视频处理。
在这里插入图片描述
该方法利用整个视频的视觉信息进行预测，并采用双流网络。与之前的方法不同，不是采用single frames or frame stacks，TSN的输入是从整个视频稀疏采样得到的一系列小片段。每一个片段都将产生自己的初步预测类别，再将这些片段分类总合为视频预测。在学习过程中，通过迭代更新模型参数，优化视频级预测的损失值，而不是（用于双流卷及网络的）片段级预测的损失值

最低0.47元/天解锁文章

X.mw

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
video analysis 论文阅读-TSN

Temporal Segment Networks: Towards Good Practices for Deep Action Recognition本文延续了双流网络，并考虑到计算花费改善了视频输入形式，提出了新的网络TSN，并且探索了一些实践方法（数据扩充，光流输入其他形式）。虽然文章比较老，但是实验过程以及对数据的处理值得参考。论文主要贡献：提出了TSN（Temporal Segme...
复制链接

扫一扫