转载翻译-cvpr2015主要是

Fully Convolutional Networks forSemantic Segmentation

Hypercolumns for Object Segmentationand Fine-Grained Localization

一个很好的思路!以前的CNN或者R-CNN,我们总是用最后一层作为class label,倒数第二层作为feature。这篇文章的作者想到利用每一层的信息。因为对于每一个pixel来讲,在所有层数上它都有被激发和不被激发两种态,作者利用了每一层的激发态作为一个feature vector来帮助自己做精细的物体检测。

What do 15,000 objectcategories tell us about classifying and localizing actions?

贡献:视频中的行为自动分类与定位 。 1)对行为识别中的目标编码第1次利用in-depth study。2)显示了目标对于行为一般是语义的。3)建立有目标参照的行为。不是利用全部目标,选择一些目标来识别行为。4)显示目标行为关系是普遍的,或者共用的,可以将这些关系从一个领域转换到另一个领域。5)目标或者物体,与运动联系起来时,提高了行为分类和定位效率。

A Discriminative CNNVideo Representation for Event Detection

两点贡献:

1.把pooling换掉了,换成了一种编码方法。

2.利用一组latent concept descriptors来描述帧。

Fisher向量编码。一个高斯混合模型GMM,由K个部分组成记为:

其中,µk,Σk,πk分别是第k个分量的均值、方差、先验参数。

因为每一帧通过CNN后,最终产生一个N维向量,X={x1, x2, ……, xN}. GMM模型是从视频帧的向量中产生的。一个GMM也是一个N维向量。X向量对第k个部分的均值和均方差:

把K部分的uk和vk连接起来就构成了fisher向量,向量的大小是2D’K。D’是CNN后,也许再经过PCA之后,的向量维数。之后,fisher向量要标准化。

Vector of locally aggregated descriptors(VLAD)(局部聚集描述向量?)是fishervector的简化版。用k-means产生几个粗略的中心{c1,c2, ……, cK},可以计算X与ck的均值:

可以用X的K个近邻中心,也可以用全部,最终连接成一个D’K大小的向量。本文用的是5-近邻,之后将向量标准化。

后面的量化分析表明,VLAD非常适合 CNN后的描述符。

CNN Latent ConceptDescriptors潜在概念描述:

Pool5之后,一般直接连接成一个向量,向量维数很大,空间信息也丢失了。

可以将每个卷积过滤器看作对应一个潜在概念。设有pool5后有M个image, 第个是a*a大小。就是排列顺序不一样了。原来是一个image排好,再下一个,排出一个向量,大小是a*a*M。现在是每个image出一维,排出M维的向量,共有a*a个向量。这样每个向量可以看做当时位置的概念描述。在获得了全部帧的向量后,再编码。

最后一pooling层,采用多窗口多尺寸、多步长,不需重训练CNNs。

(上面步骤相当于,先抽取每一帧的CNN特征,再用video pooling全部的latent conceptdescriptors)利用4个不同的CNN max-pooling获取6X6, 3X3, 2X2, 1X1 输出,对一个帧产生50个空间位置的维。

表示压缩:之后压缩,对于fishervector or VLAD可以采用product quantizationg压缩向量.

实验设置

采用最大的有标签的事件数据库,TRECVIDMEDTest 13和TRECVID MEDTest 14。每个用20种复杂的事件,其中有10种有交叉。事件名称像:生日聚会、自选车表演这样的。训练,有大约100个正例,对每个事件。有公用的负例5000个视频。测试,共有23000个视频。

跟谁对比

Improved dense trajectories 抽取路径、HOG、HOF、MBH 和fishervector,之后,编码来表示视频[44, 3]。与之对应,我们首先用因子2来压缩维度,用256个components来产生fisher vectors。还与STIP, MOSIFT,CSIFT 作了对比。

评估细节

实验中利用LIBSVM的SVMtoolkit。(SVM做什么地方分类?)

每5帧采样,用caffe的CNN中的[37]中通用模型取特征,用vlfeat来产生fisher vector and VLAD。利用NIST标准,meanaverage precision来进行二值分类。

ActionRecognition with Trajectory-Pooled Deep-Convolutional Descriptors

行为识别通常有两类特征:手工特征(就是想办法取得的各种特征)和深度学习的特征。手工特征中improvedtrajectories combined with fisher vector 是最成功的。深度学习中是,convolutionalnetworks(ConvNets)[18]很流行。

这篇文章提出了一种新的视频表示方法,叫做trajectory-pooled deep-convolutionaldescriptor(TDD)。他拥有手工设计的特征和深度学习的特征的优点。用深度结构来学习有区分的卷积特征映射。然后用轨迹控制的pooling方法来融合这些卷积特征。

本文设计了两种正则化的方法来转化卷积特征映射,即时空正则化和通道正则化。

我们提的特征的优点:1)能够自动的学习得到高可区分性的特征,2)考虑了时间维的本质特性,引进了轨迹控制策略来采样和pooling深度学习的特征。

改进的轨迹首先,在8个不同的空间尺度上,用步长为5个像素的格子,密集采样一系列的点。然后,这些被采样的点被密集的光流区域的均值滤波器跟踪。最后,这些缺乏运动信息的静态轨迹被删除,其他有巨大变化的轨迹也被忽略,因为他们是明显的不正确的光流。

改进的轨迹能够促进密集轨迹的识别的性能,因为他考虑了相机的运动信息。我们对改进的轨迹做了一点点的改变。我们只跟踪原始空间尺度上的点的轨迹。我们发现在单个尺度上能够比较快速的实现。

深度卷积描述子:

(1)卷积网络:我们选择的是two-stream ConvNet,因为他的性能不错。我们做出了一点点的改进,我们使用相同的网络结构,原始的网络在时间网络上忽略了第二层上的局部响应正则化(LRN),我们加上了。

(2)卷积特征映射:一旦两路的卷积网络训练完成,我们把它看做是一般的特征提取器来得到视频的卷积特征映射。对于每一帧,我们都把他看作是空间网络和时间网络的输入。我们对空间网络和时间网络做出了两点的改变:第一,我们删除了特征提取目标层后面的所有层。第二,在每一个卷积或者pooling层之前,对每一层做一个0填充。

 

轨迹池化的描述子:从提取的轨迹和卷积特征映射中得到trajectory-pooled deep-convolutionaldescriptorsTDDs)。

提取TDD包括两个步骤:特征映射正则化和轨迹池化。

我们设计了两种正则化的方法:时空正则化和通道正则化。我们选择时空正则化。

基于轨迹和正则化后的卷积特征映射来提取TDDs。

多尺度的TDD提取:我们在一个单一的尺度上计算光流和跟踪点,然后我们用多尺度的金字塔表示视频的帧和光流。

特征编码:我们选择Fisher vector来编码TDDs。然后用一个线性的SVM做分类器。为了训练GMMs,我们首先用PCA来对TDD去耦合,减少他的维度。

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值