Temporal Segment Networks for Action Recognition in Videos 用于动作识别的时序分割网络

Temporal Segment Networks for Action Recognition in Videos 用于动作识别的时序分割网络

本文原创,欢迎转载 https://blog.csdn.net/Vincent_zbt/article/details/83062094

这篇博客主要记录对这篇论文的阅读和一些理解,算是一个整理吧,把关键问题找出来,方便学习文章,文章是在2016年曾经被发表过,在2018年的时候入选了TPAMI 2018,
文章地址为 https://arxiv.org/pdf/1705.02953.pdf
文章源码可以在github上找到:https://github.com/yjxiong/temporal-segment-networks
文章主要解决问题目标和贡献:
1、如何有效的捕获long-range时序结构来学习视频表示(文章提出TSN)
2、如何利用学习到的CNN模型再未经过修剪的视频上识别动作(文章提出M-TWI)
3、如何通过有限的样本学习CNN模型并且将其运用到更大的数据上。

TSN框架工作原理

1、首先将一段长序列分成固定数量的短序列,并且再短序列中随机采样一个片段snippet
2、利用分段一致性函数来聚合来自采样片段的信息(通过这种方式,TSN网络可以建模整个视频的long-range结构,起计算成本与视频持续时间无关)
文章研究提出了5种分段一致性聚合函数,三种基本形式:average-pooling, max pooling,weighted average,两种高级方案:top-k pooling 和adaptive attention weighting。

为了将学习到的TSN用于未经修剪过的视频,提出了分层聚合策略Multi-scale Temporal Window Intergration(M-TWI)
延续TSN的思想,该策略的原理为:首先将未修剪的视频分成一系列具有固定持续时间的短窗口,然后,对每个窗口进行独立的动作识别,对这些片段级的动作识别分数用max pooling操作 ,最后根据TSN网络框架的聚合功能,采用top-k或者adaptive attention weighting来聚合这些窗口的预测,从而产生视频级的预测结果。由于该聚合模块具有隐式地选择具有区分动作实例的区间,同时抑制噪声背景干扰的能力,所以对于非约束视频识别是有效的。

文章在四个数据集HMDB51, UCF101, THUMOS, and ActivityNet上验证文章提出的方法。另外通过引入最新的深层模型架构ResNet和InceptionV3,以及将音频作为互补信道,进一步改进了动作识别方法。

架构与公式
对于给定的视屏V,将其划分为等持续时间的K个部分{S1,S2,S3,…,Sk},一个片段Tk是从对应的Sk种随机采样得到的。对于一系列的片段(T1,T2,T3…,Tk),TSN网络对其渐离如下模型(不好编辑,还是看文章吧):

TSN(T1,T2,T3,…,Tk)=H(g(F(T1,W),F(T2,W), …,F(Tk,W),)),

其中F(Tj,W)是用参数W表示的卷积网络的函数,这个函数作用于片段Tk,产生可能属于某一类的的所有分类分数,这将得到一个向量(第 i 维的值表示,在 Tj 片段下,判断为第 i 类的概率分数)。
分段一致性函数g()对所有片段的分类输出进行组合,以得到其中类假设的一致性,g() 同样得到一个向量(第 i 维表示这个视频被分为第 i 类的概率分数)。根据这个一致性,预测函数H()对整个视频进行分类。H()一般采用Softmax
在时段网络框架中,一致性函数G的形式非常重要,因为它应该具有高的建模能力,同时仍然可以微分或至少具有次梯度。高建模能力是指能够有效地将片段级别的预测聚合到视频级别的分数,而可微性允许使用反向传播来容易地优化时间段网络框架。
在这里插入图片描述
如图所示:一个视频被分成了3段,从每一段中随机选取一个片段进行卷积,可以用RGB,光流

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值