论文笔记一Temporal Segment Networks: Towards Good Practices for Deep Action Recognition


Abstract:

Deep convolutional networks 对图像处理有很好的识别效果,但对视频中的动作识别,传统方法中的优势并没有体现出来。


Paper的目标1.discover the principles to design effective ConvNet architectures for action recognition in videos 

 2. learn these models given limited training samples. 


Contribution: 1.TSN(一种 一种新型的基于视频的行为识别的网络结构。它将稀疏时间采样策略和基于视频的监督相结合,使用整个视频支持有效的学习)

       2.利用TSN网络结构学习卷积神经网络在视频数据方面的处理。


Result:在数据集HMDB51 (69.4%) and UCF101 (94.2%) 达到了最先进的效果



Introduction


动作识别的重要且互补的两个方面:1.appearance  2.dynamic

一个识别系统的识别率很大一部分取决于能否提取和利用有关的信息。然而,由于很多复杂的因素(如观察点的变化,相机的移动)导致提取这些信息变得十分的non-trival.

所以在保证提取正确信息情况下,设计有效的representation来应对这些复杂因素变的十分重要。


深度卷积神经网络在拥有大量数据集的视觉数据的识别上有着出色的建模和识别能力。然而,和图像分类不同的是,在基于视频的动作识别中,深度卷积神经网络与传统的手动设计特征并没有很大的优势。


在我们的观点中,卷积神经网络运用到基于视频的动作识别主要有两个障碍:

1.在动作识别中远距离的时间结构对理解动态这个特性十分重要,然而主流的神经网络结构对appearance和短时的运动比较关注。因此缺少识别长时动作的能力。最近的方法大部分依赖于密集时间抽样的样本(有着事先定义好的时间间隔),这对将它们运用到实际应用中极为不利。

2.在实践中,我们需要用大量的样本来训练深度卷积神经网络。在实际中动作识别数据集在大小和多样性上都十分有限(很可能会导致过拟合)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值