TSN论文笔记

最新推荐文章于 2023-02-19 08:00:00 发布

qq_39862223

最新推荐文章于 2023-02-19 08:00:00 发布

阅读量2.2k

点赞数 3

分类专栏： tsn 文章标签：神经网络机器学习 pytorch 深度学习

本文链接：https://blog.csdn.net/qq_39862223/article/details/108419664

版权

TSN，全称为temporal-segment-networks，即时间段网络。该网络是一种新的基于视频的动作识别框架，旨在通过基于分段的采样和聚合模块对长距离的时间结构建模。通过简单的平均池化和多尺度时间窗口的集成，该模型可以很容易地应用于修剪和未修剪视频中的动作识别。

根据之前学者的研究得知，视频的动作识别有两个重要方面：外观和时间动态。但是由于尺度变化、视点改变、相机移动等困难，使得关于视频的动作识别十分困难。因此，设计有效的特征表示对于学习分类信息很重要。

和图像分类不同，对于基于视频的动作识别来说，端到端深度卷积网络带来的改进仍然是有限的。论文作者认为有三个主要阻碍：

如何有效捕捉长距离时间结构的视频表示：尽管在传统方法中，长距离时间结构以及被证明对于理解动态信息非常重要，但在深度卷积网络架构方法中，仍然缺乏对于长距离时间结构的关注。现有的Convnet类方法通过关注外观和短期运动(最多16帧)。最近也出现一些解决这个问题的方法，采用的是预定义的采样间隔进行时间采样，这样计算成本高，且内存空间有限。
如何利用学到的ConvNet模型来更真实地处理未修剪的视频：现有动作识别方法多针对修剪过的视频。而实际上我们经常需要处理未修剪的视频如THUMOS, ActivityNet，其中每个动作可能仅占整个视频一小部分。主导背景部分可能干扰动作识别模型的预测。
如何在给定有限训练样

关注