TSN论文笔记

在这里插入图片描述
论文链接:https://arxiv.org/abs/1608.00859
代码链接:https://github.com/yjxiong/tsn-pytorch
论文笔记链接:https://blog.csdn.net/qq_39862223/article/details/108419664
论文实验过程:https://blog.csdn.net/qq_39862223/article/details/108461526
论文源码分析:https://blog.csdn.net/qq_39862223/article/details/108486039

1. TSN是什么?

 TSN,全称为temporal-segment-networks,即时间段网络。该网络是一种新的基于视频的动作识别框架,旨在通过基于分段的采样和聚合模块对长距离的时间结构建模。通过简单的平均池化和多尺度时间窗口的集成,该模型可以很容易地应用于修剪和未修剪视频中的动作识别。

2. TSN面临的问题

 根据之前学者的研究得知,视频的动作识别有两个重要方面:外观时间动态。但是由于尺度变化、视点改变、相机移动等困难,使得关于视频的动作识别十分困难。因此,设计有效的特征表示对于学习分类信息很重要。

 和图像分类不同,对于基于视频的动作识别来说,端到端深度卷积网络带来的改进仍然是有限的。论文作者认为有三个主要阻碍:

  1. 如何有效捕捉长距离时间结构的视频表示:尽管在传统方法中,长距离时间结构以及被证明对于理解动态信息非常重要,但在深度卷积网络架构方法中,仍然缺乏对于长距离时间结构的关注。现有的Convnet类方法通过关注外观和短期运动(最多16帧)。最近也出现一些解决这个问题的方法,采用的是预定义的采样间隔进行时间采样,这样计算成本高,且内存空间有限。
  2. 如何利用学到的ConvNet模型来更真实地处理未修剪的视频:现有动作识别方法多针对修剪过的视频。而实际上我们经常需要处理未修剪的视频如THUMOS, ActivityNet,其中每个动作可能仅占整个视频一小部分。主导背景部分可能干扰动作识别模型的预测。
  3. 如何在给定有限训练样
  • 3
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值