【论文笔记】TSN（Temporal Segment Networks: Towards Good Practices for Deep Action Recognition）

最新推荐文章于 2022-04-19 22:25:40 发布

Tiger山

最新推荐文章于 2022-04-19 22:25:40 发布

阅读量920

点赞数

分类专栏：动作识别文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_43680727/article/details/114480507

版权

TSN（Temporal Segment Networks）旨在解决现有动作识别模型对长期时间信息分析不足的问题，通过稀疏采样策略和双流网络结构，结合光流与RGB信息。在有限数据下，通过预训练、正则化和增强数据增强等手段提高模型性能。文章探讨了端到端网络的概念，指出TSN并非端到端模型，并分享了论文中的关键发现和实验结果。

摘要由CSDN通过智能技术生成

【注】这是我在动作识别领域，认真研读的第一篇文章，对很多概念还理解得不透彻，名词翻译不准确，请大家谅解并在评论区指正。最近正在看TSN的实现代码，后期还会出一篇代码研读的博客。

解决问题（motivation）：

现有模型缺乏对long-range时间动作信息的分析
目前主流的动作识别模型，往往专注于提取空间信息（appearance）和short-term的时间动作信息，缺乏对long-range的时间动作信息的分析应用。而不去提取long-range的时序信息的原因，在于现有解决方案使用的是稠密时序采样（dense temporal sampling with a predefined sampling interval），这会导致极大的计算量，导致特征提取的视频长度有限。
训练数据有限
由于视频数据的采集和标注十分困难，现有的训练数据十分有限。例如现有的两个主流数据集：UCF101,HMDB51，在大小以及动作类别上都十分有限。如何在有限的数据下训练得到效果较好的模型也是一个问题。

解决方案（方案关键点）：

1.提出基于双流网络结构的TSN网络 ,并使用稀疏采样的策略，获得视频长度上的时间动作信息。

2.在模型训练中使用一系列改进方法及技巧，使得在有限的数据下模型也能较好的训练。
①cross-modality pre-training; ②regularization; ③enhanced data augmentation；④study four types of input modalities to two-stream ConvNets.

最低0.47元/天解锁文章

Tiger山

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记】TSN（Temporal Segment Networks: Towards Good Practices for Deep Action Recognition）

【注】这是我在动作识别领域，认真研读的第一篇文章，对很多概念还理解得不透彻，名词翻译不准确，请大家谅解并在评论区指正。最近正在看TSN的实现代码，后期还会出一篇代码研读的博客。解决问题（motivation）：现有模型缺乏对long-range时间动作信息的分析目前主流的动作识别模型，往往专注于提取空间信息（appearance）和short-term的时间动作信息，缺乏对long-range的时间动作信息的分析应用。而不去提取long-range的时序信息的原因，在于现有解决方案使用的是稠密时序采
复制链接

扫一扫