转载翻译-cvpr2015主要是

最新推荐文章于 2019-04-11 15:03:11 发布

comliy123

最新推荐文章于 2019-04-11 15:03:11 发布

阅读量559

点赞数

分类专栏：视频分析

视频分析专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Fully Convolutional Networks forSemantic Segmentation

Hypercolumns for Object Segmentationand Fine-Grained Localization

一个很好的思路！以前的CNN或者R-CNN，我们总是用最后一层作为class label，倒数第二层作为feature。这篇文章的作者想到利用每一层的信息。因为对于每一个pixel来讲，在所有层数上它都有被激发和不被激发两种态，作者利用了每一层的激发态作为一个feature vector来帮助自己做精细的物体检测。

What do 15,000 objectcategories tell us about classifying and localizing actions?

贡献：视频中的行为自动分类与定位　。　1）对行为识别中的目标编码第1次利用in-depth study。2）显示了目标对于行为一般是语义的。3）建立有目标参照的行为。不是利用全部目标，选择一些目标来识别行为。4）显示目标行为关系是普遍的，或者共用的，可以将这些关系从一个领域转换到另一个领域。5）目标或者物体，与运动联系起来时，提高了行为分类和定位效率。

A Discriminative CNNVideo Representation for Event Detection

两点贡献：

1.把pooling换掉了，换成了一种编码方法。

2．利用一组latent concept descriptors来描述帧。

Fisher向量编码。一个高斯混合模型GMM，由K个部分组成记为：

其中，µk，Σk，πk分别是第k个分量的均值、方差、先验参数。

因为每一帧通过CNN后，最终产生一个N维向量，X={x1, x2, ……, xN}. GMM模型是从视频帧的向量中产生的。一个GMM也是一个N维向量。X向量对第k个部分的均值和均方差：

把K部分的uk和vk连接起来就构成了fisher向量，向量的大小是2D’K。D’是CNN后，也许再经过PCA之后，的向量维数。之后，fisher向量要标准化。

Vector of locally aggregated descriptors(VLAD)（局部聚集描述向量？）是fishervector的简化版。用k-means产生几个粗略的中心{c1,c2, ……, cK}，可以计算X与ck的均值：

可以用X的K个近邻中心，也可以用全部，最终连接成一个D’K大小的向量。本文用的是5－近邻，之后将向量标准化。

后面的量化分析表明，VLAD非常适合　CNN后的描述符。

CNN Latent ConceptDescriptors潜在概念描述:

Pool5之后，一般直接连接成一个向量，向量维数很大，空间信息也丢失了。

可以将每个卷积过滤器看作对应一个潜在概念。设有pool5后有M个image,　第个是a*a大小。就是排列顺序不一样了。原来是一个image排好，再下一个，排出一个向量，大小是a*a*M。现在是每个image出一维，排出M维的向量，共有a*a个向量。这样每个向量可以看做当时位置的概念描述。在获得了全部帧的向量后，再编码。

最后一pooling层，采用多窗口多尺寸、多步长，不需重训练CNNs。

（上面步骤相当于，先抽取每一帧的CNN特征，再用video pooling全部的latent conceptdescriptors）利用4个不同的CNN　max-pooling获取6X6, 3X3, 2X2, 1X1 输出，对一个帧产生50个空间位置的维。

表示压缩：之后压缩，对于fishervector or VLAD可以采用product quantizationg压缩向量.

实验设置

采用最大的有标签的事件数据库，TRECVIDMEDTest 13和TRECVID MEDTest 14。每个用20种复杂的事件，其中有10种有交叉。事件名称像：生日聚会、自选车表演这样的。训练，有大约100个正例，对每个事件。有公用的负例5000个视频。测试，共有23000个视频。

跟谁对比

Improved dense trajectories 抽取路径、HOG、HOF、MBH　和fishervector，之后，编码来表示视频[44, 3]。与之对应，我们首先用因子2来压缩维度，用256个components来产生fisher vectors。还与STIP, MOSIFT,CSIFT 作了对比。

评估细节

实验中利用LIBSVM的SVMtoolkit。（SVM做什么地方分类？）

每5帧采样，用caffe的CNN中的[37]中通用模型取特征，用vlfeat来产生fisher vector and VLAD。利用NIST标准，meanaverage precision来进行二值分类。

ActionRecognition with Trajectory-Pooled Deep-Convolutional Descriptors

行为识别通常有两类特征：手工特征（就是想办法取得的各种特征）和深度学习的特征。手工特征中improvedtrajectories combined with fisher vector 是最成功的。深度学习中是，convolutionalnetworks(ConvNets)[18]很流行。

这篇文章提出了一种新的视频表示方法，叫做trajectory-pooled deep-convolutionaldescriptor(TDD)。他拥有手工设计的特征和深度学习的特征的优点。用深度结构来学习有区分的卷积特征映射。然后用轨迹控制的pooling方法来融合这些卷积特征。

本文设计了两种正则化的方法来转化卷积特征映射，即时空正则化和通道正则化。

我们提的特征的优点：1）能够自动的学习得到高可区分性的特征，2）考虑了时间维的本质特性，引进了轨迹控制策略来采样和pooling深度学习的特征。

改进的轨迹：首先，在8个不同的空间尺度上，用步长为5个像素的格子，密集采样一系列的点。然后，这些被采样的点被密集的光流区域的均值滤波器跟踪。最后，这些缺乏运动信息的静态轨迹被删除，其他有巨大变化的轨迹也被忽略，因为他们是明显的不正确的光流。

改进的轨迹能够促进密集轨迹的识别的性能，因为他考虑了相机的运动信息。我们对改进的轨迹做了一点点的改变。我们只跟踪原始空间尺度上的点的轨迹。我们发现在单个尺度上能够比较快速的实现。

深度卷积描述子：

（1）卷积网络：我们选择的是two-stream ConvNet，因为他的性能不错。我们做出了一点点的改进，我们使用相同的网络结构，原始的网络在时间网络上忽略了第二层上的局部响应正则化（LRN），我们加上了。

（2）卷积特征映射：一旦两路的卷积网络训练完成，我们把它看做是一般的特征提取器来得到视频的卷积特征映射。对于每一帧，我们都把他看作是空间网络和时间网络的输入。我们对空间网络和时间网络做出了两点的改变：第一，我们删除了特征提取目标层后面的所有层。第二，在每一个卷积或者pooling层之前，对每一层做一个0填充。

轨迹池化的描述子：从提取的轨迹和卷积特征映射中得到trajectory-pooled deep-convolutionaldescriptors（TDDs）。

提取TDD包括两个步骤：特征映射正则化和轨迹池化。

我们设计了两种正则化的方法：时空正则化和通道正则化。我们选择时空正则化。

基于轨迹和正则化后的卷积特征映射来提取TDDs。

多尺度的TDD提取：我们在一个单一的尺度上计算光流和跟踪点，然后我们用多尺度的金字塔表示视频的帧和光流。

特征编码：我们选择Fisher vector来编码TDDs。然后用一个线性的SVM做分类器。为了训练GMMs，我们首先用PCA来对TDD去耦合，减少他的维度。

comliy123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
转载翻译-cvpr2015主要是

Fully Convolutional Networks forSemantic SegmentationHypercolumns for Object Segmentationand Fine-Grained Localization一个很好的思路！以前的CNN或者R-CNN，我们总是用最后一层作为class label，倒数第二层作为feature。这篇文章的作者想到利用每一层的信息。
复制链接

扫一扫