视频行为识别阅读[2]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition[2016]

[2]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition[2016](TSN网络)

概括:

为了解决长序列的视频行为识别问题,将长序列切分成短序列并从中随机选择部分,作为双流网络的输入,采用多个这样的双流网络,最后将各个子网络的得分值进行均值融合得到最终结果。
#####介绍:
(1)对于长序列的学习能力在理解视频行为上具有重要意义,但是主流的双流法和C3D通常只是聚焦于表面或者是短时间序列的学习(C3D的输入是连续的16帧,而双流法是依靠前后两帧计算出来的光流)。Long-term temporal convolutions for action recognition.[2016]、Beyond short snippets: Deep networks for video classification.[CVPR2015]、Long-term recurrent convolutional networks for visual recognition and description[CVPR2015]等文章通过预定义的采样间隔进行稠密时序采样解决这种问题,但是却增大了计算量。
(2)卷积神经网络训练需要大量的数据,否则容易过拟合,公开数据集UCF101和HMDB51在尺寸和多样性上不足。在图像识别中非常深的网络,例如Very deep convolutional networks for large-scale image recognition. [[ICLR2015]和Batch normalization: Accelerating deep network training by reducing internal covariate shift.[ICMl2015],在视频行为识别中可能存在较高的过拟合风险。
(3)连续视频帧具有高度冗余性(相邻动作间的相似性极大)。TSN在长的视频序列上均匀的抽取短的序列,然后在聚合这些信息,这样TSN能够模拟长的视频。
(4)为了释放该网络的潜力,使用了非常深的网络Batch normalization: Accelerating deep network training by reducing internal covariate shift.[ICMl2015]和Very deep convolutional networks for large-scale image recognition. [[ICLR2015],探索了一些方法去使用少量的样本就可以进行训练。例如:数据增强、 跨模态预训练、 正则化。
You lead, we exceed: Labor-free video concept learning by jointly exploiting web videos and images. In: CVPR

相关工作:

(卷积方法)除了经典的C3D和双流以外,Human action recognition using factorized spatio-temporal convolutional networks.叠加RGB差分的视频作为输入。相似的采用长视频(固定视频输入的长度在64到120,但是TSN由于稀疏采样没有这种限制)输入的有Beyond short snippets: Deep networks for video classification. In: CVPR. (2015);Long-term temporal convolutions for action recognition. 2016;Long-term recurrent convolutional networks for visual recognition and description. In: CVPR. (2015) 。
(时序结构模型)原子时序模型(Temporal localization of actions with actoms. IEEE2013;人体骨骼模型
#####细节
这里写图片描述
一个长视频被分解成k个片段(相等间隔),从每一个片段中随机选择一帧,不同的片段得到的结果通过一致性函数产生最终结果(一个视频级别的预测,一段视频给出一个结果)
这里写图片描述
函数F表示对使用卷积网络作用于视频片段T得到一个片段各个类别的得分值
函数G表示对整个各个片段的得分值进行一致性选择,得到一致意见(最终选择的是对各个类别的得分值直接求均值)
函数H将各个类别的得分值装换成概率值(这里使用的是softmax)
下面是损失函数的设计:
这里写图片描述
没看懂,文章说是使用标准的交叉熵损失。这里G是一个得分值,不应该先转换成概率值吗?然后括号里面对其所有的类别进行exp后又进行相加?那么,这样不同的类别后面这部分就是一个常量了。
使用Batch normalization: Accelerating deep network training by reducing internal covariate shift.[ICMl2015](BN-Inception)作为网络架构的双流法。在双流法中,空间网络输入都是RGB图像,而时序网络的输入是光流或者堆叠光流场,作者在文章中提出探索了两种额外的模式,RGB差分和扭曲光流场(wraped optical flow fields)。实验表明,扭曲光流场更加专注于移动者本身,因此采用这种输入。

测试的时候在双流融合阶段,使用加权平均的方式进行融合。

测试

这里写图片描述
四种训练模式,第一行:原始双流网络;第二行,从头开始;第三行:预训练空间流;第四行:交叉模式预训练;第五行:交叉预训练和部分BN dropout相结合。
这里写图片描述

本文的视频人脸检测识别方法的基本设计思想是,在给出一段视频文件以及这个视频文件的字幕和剧本之后,可以自动的对视频中的人物进行检测和识别,不需要任何的训练样本。视频人脸检测识别方法主要由四个部分组成:字幕剧本融合部分,人脸检测部分,样本集自动生成部分和基于深度学习的人脸识别部分。本文将深度学习算法引入到了视频人脸识别中来,有两方面的重要意义,一方面,视频人脸的识别要求算法具备一定的抗干扰能力,并且能够保证一定的实时性,本文的实验与分析表明,深度学习算法具备这方面的要求;另一方面,从深度学习算法特性的角度来说,深度学习算法最大的缺点就是构造深度模型需要大量的样木,这很大程度上限制了深度学习算法的应用,然而本文所设计的基于视频的人脸检测模块可以轻松的产生数万、数十万的样本,从而满足了深度学习算法的大样本集要求。 基于深度学习模型的人脸识别部分是整个系统的重点,这一部分主要有两方面的意义:一,经历了视频人脸的检测部分之后,虽然视频人脸集合中人脸的纯度有了很大的提升,但是依然会存在一些杂质,因此必须通过识别模块来进一步的过滤掉人脸集合中的杂质;二,通过视频所得到的帧文件中,经常会出现多张人脸同时出现的情况,在这种情况下,视频人脸的检测部分是无法将说话者与人脸进行对应的,必须通过识别模块才能区分出一个帧中的多个人脸。 基于深度学习模型的人脸识别部分主要包含三个模块:数据预处理模块、深度学习模块和识别模块。数据预处理模块主要由数据整合和构造数据立方体两个部分组成。深度学习模块通过两个具体过程来实现:RBM调节和深度模型的反馈微调。RBM的调节过程是自下而上的各个层间的调节过程,以这种方式来初始化整个深度模型的系统权值,而深度模型的反馈微调,首先进行自下而上的识别模型转换,然后再进行自上而下的生成模型转换,最后通过不同层次之间的不断调节,使生成模型可以重构出具有较低误差的原样本,这样就得到了此样本的本质特征,即深度模型的最高抽象表示形式。经过深度学习模型的处理,可以得到降维之后的样本特征,在此基础上运用识别模块,本文中所采用的识别方法是人工神经网络的识别方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值