TSN(Temporal Segment Networks)算法笔记

最新推荐文章于 2025-03-16 14:00:00 发布

AI之路

最新推荐文章于 2025-03-16 14:00:00 发布

阅读量3.9w

点赞数 53

分类专栏：深度学习计算机视觉视频分类/理解/分析文章标签：深度学习

本文链接：https://blog.csdn.net/u014380165/article/details/79029309

版权

TSN（Temporal Segment Networks）是ECCV2016提出的一种用于深度视频动作识别的网络结构，旨在解决长时间行为判断和数据稀缺问题。通过稀疏采样减少冗余信息，采用RGB差异和光流特征增强数据，同时利用交叉预训练和dropout减少过拟合。网络由共享参数的双路CNN组成，输入包括单帧图像和光流信息，以获取视频的长时间信息。实验表明，TSN在多种数据集上表现出色，特别是在融合多种输入类型时效果最佳。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文：Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
论文链接：https://arxiv.org/abs/1608.00859
代码链接一：https://github.com/yjxiong/temporal-segment-networks
代码链接二：https://github.com/yjxiong/tsn-pytorch

这篇ECCV2016的文章主要提出TSN（temporal segment network）结构用来做视频的动作识别。TSN可以看做是双流（two stream）系列的改进（关于双流网络可以参看论文链接：https://arxiv.org/abs/1406.2199或者博客链接），在此基础上，文章要解决两个问题：1、是长时间视频的行为判断问题（有些视频的动作时间较长）。2、是解决数据少的问题，数据量少会使得一些深层的网络难以应用到视频数据中，因为过拟合会比较严重。

针对第一个问题，首先，为什么目前的双流结构网络难以学习到视频的长时间信息？因为其针对的主要是单帧图像或者短时间内的一堆帧图像数据，但这对于时间跨度较长的视频动作检测而言是不够的。因此采用更加密集的图像帧采样方式来获取视频的长时间信息是比较常用的方法，但是这样做会增加不少时间成本，同时作者发现视频的连续帧之间存在冗余，因此想到用稀疏采样代替密集采样，也就是说在对视频做抽帧的时候采取较为稀疏的抽帧方式，这样可以去除一些冗余信息，同时降低了计算

最低0.47元/天解锁文章