TSN(Temporal Segment Networks)算法笔记

TSN(Temporal Segment Networks)是ECCV2016提出的一种用于深度视频动作识别的网络结构,旨在解决长时间行为判断和数据稀缺问题。通过稀疏采样减少冗余信息,采用RGB差异和光流特征增强数据,同时利用交叉预训练和dropout减少过拟合。网络由共享参数的双路CNN组成,输入包括单帧图像和光流信息,以获取视频的长时间信息。实验表明,TSN在多种数据集上表现出色,特别是在融合多种输入类型时效果最佳。
摘要由CSDN通过智能技术生成

论文:Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
论文链接:https://arxiv.org/abs/1608.00859
代码链接一:https://github.com/yjxiong/temporal-segment-networks
代码链接二:https://github.com/yjxiong/tsn-pytorch

这篇ECCV2016的文章主要提出TSN(temporal segment network)结构用来做视频的动作识别。TSN可以看做是双流(two stream)系列的改进(关于双流网络可以参看论文链接:https://arxiv.org/abs/1406.2199或者博客链接),在此基础上,文章要解决两个问题:1、是长时间视频的行为判断问题(有些视频的动作时间较长)。2、是解决数据少的问题,数据量少会使得一些深层的网络难以应用到视频数据中,因为过拟合会比较严重。

针对第一个问题,首先,为什么目前的双流结构网络难以学习到视频的长时间信息?因为其针对的主要是单帧图像或者短时间内的一堆帧图像数据,但这对于时间跨度较长的视频动作检测而言是不够的。因此采用更加密集的图像帧采样方式来获取视频的长时间信息是比较常用的方法,但是这样做会增加不少时间成本,同时作者发现视频的连续帧之间存在冗余,因此想到用稀疏采样代替密集采样,也就是说在对视频做抽帧的时候采取较为稀疏的抽帧方式,这样可以去除一些冗余信息,同时降低了计算

评论 30
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值