论文笔记《Harvesting Discriminative Meta Objects with Deep CNN Features for Scene Classification》

最新推荐文章于 2021-09-22 22:15:32 发布

July_Zh1

最新推荐文章于 2021-09-22 22:15:32 发布

阅读量1.3k

点赞数

分类专栏： computer vision paper reading 文章标签： cnn 分类 object

本文链接：https://blog.csdn.net/happyer88/article/details/51418827

版权

computer vision 同时被 2 个专栏收录

30 篇文章 8 订阅

订阅专栏

paper reading

9 篇文章 1 订阅

订阅专栏

文章提出一个pipeline从场景训练集中挖掘代表性的元素（meta object），将一幅图像用这些meta object表示，得到了state-of-the-art的分类效果。

论文来自ICCV2015

1 Motivation

假设：场景的类别与场景中的目标有关。

本文借鉴BOW思想，用整个训练集提取出representative and discriminative meta object，用category-specific的object表示图像。

2 Method

文章提出的pipeline分5步，图示如下：
Framework

Step 1：得到object candidates

用MCG1 (Multiscale combinational grouping)得到region proposals

MCG是基于图片的空间金字塔分割，将多尺度的分割结果合并后得到candidates，能够更好地捕获细节，得到更精确的proposal。

对得到的patch用Hybrid-CNN2提取特征，使用fc7层输出作为patch的特征。

Hybrid-CNN是用Places数据集（场景图片数据集）和ImageNet的图片数据集一起训练得的网络，更适用于场景图片。

Step 2：筛选object

通过one-class SVM3去除outliers，也就是在特征空间中和其他patch都不靠近的点。

目标函数：

m i n 1 2 ∥ w ∥ 2 + 1 v l \sum l ξ i - ρ

$\mathbf {min} \frac12 \Vert w \Vert ^2 + \frac1{vl} \sum^l \xi_i - \rho$

(w \cdot Φ (x i)) \geq ρ - ξ i, x i i \geq 0, i = 1, 2, \dots, l

$(w \cdot \Phi(x_i)) \ge \rho - \xi_i, xi_i \ge 0, i = 1,2, \ldots ,l$
决策函数：

f (x) = s i g n (w \cdot Φ (x i) - ρ)

$f(x) = sign(w \cdot \Phi(x_i) - \rho)$
其中，

l $l$ 是样本个数，

v $v$ 是outlier所占比率，是人为设置的，

ρ $\rho$ 是offset，one-class SVM可以看做将二分类的分类面向一侧平移以忽略一些点，这个offset就是平移的距离。

下图是v={0.1, 0.2, 0.4}时 $\rho$ 的变化，可以看到为了去掉更多outlier，分类面在收缩。
one class SVM

通过weakly supercised soft screen得到判别性强的patch

为图片 $i$ 中的patch $j$ 计算一个weight，在所有patch中（除去第i张图的所有其他patch）选patch j的K个近邻，有 $K_y$ 个patch和patch j的label是相同的。这样使得场景的代表性patch有较高的weight。

w i j = P (y i ∣ p i j) = P ( p i j , y i ) P ( p i j ) \approx K y / K .

$w_j^i = P(y_i \mid p_j^i) = \frac{P(p_j^i,y_i)}{P(p_j^i)} \approx K_y / K.$
从下图可以看出，代表性patch其实是不多的。
这里写图片描述

Step 3：得到meta object

用RIM4(Regularized Information Maximization)对所有patch聚类，聚类中心就是meta object，目的是分析整合representative patch中的语义信息。
聚类结果示例：

这里写图片描述

Step 4：编码图像特征

用所有patch来fine tune一个CNN，输出结点是meta object，这个CNN用来做patch分类。
用meta object作为codebook表示图像，用SPM5或VLAD6做pooling。
得到的图像特征，再和整幅图的CNN串联，作为最终的图像特征表示。

Step 5：分类

用有2层隐含层的神经网络，共4层；
每个隐含层200个节点，输入层是图像特征，输出层是图像label；
用Relu作为激励函数；

3 Experiment

实验中对pipeline的每一个环节都做了验证。

这里写图片描述

4 Summary

meta object实际上是proposal的聚类结果，而proposal本身只是object候选框，在后面的meta object挖掘过程中并没有调整这些proposal的内容，所以要依赖于高质量的proposal。
挖掘discriminant patch时没有用准确的标号信息，限制了挖掘能力。

Multiscale combinatorial grouping. CVPR 2014 ↩
Learning deep features for scene recognition using places database. NIPS 2014 ↩
Estimating the support of a high-dimentional distribution. Neural Comput. 2011 ↩
Discriminative clustering by regularized information maximization. NIPS 2010 ↩
Linear spatial pyramid matching using sparse coding for image classification. CVPR 2009 ↩
Aggregating local descriptors into a compact image representation. CVPR 2010 ↩