LSVM-MDPM Release 4 Notes
主页上下载的代码中自带的,翻译了,放到这里以免以后找不到,也给需要的人做个参考。有些问题,知道的或者有合理解答的都可以留下言,谢谢
1 Introduction
这是给出了[2]中对象检测系统的最近改进。一些改进是[1]中的UoCTTI_LSVM_MDPM系统采用了的,其他是后来的改进。
2 Models
[2]中每个目标类由包含2个component的混合可形变部件(部件)模型表示,每个component都是双边对称的。这里采用了包含3个component的混合非对称模型表示。非双边对称性可以使每个component更专注的检测左侧或者右侧姿势的目标。这意味着混合模型实际上有6个components,附带约束components是两两对称的。系统自动学习区分出左右姿势,并没有使用附加姿势标签信息。
2.1 Left-Right Pose Clustering
输入是包含目标对象的图像,目标带有包围盒和位置指示。首先使用包围盒的宽高比对对象实例进行聚类。进一步的将各聚类分割为左和右视的样本集。
首先分割出包围盒中的图像并将其缩放到固定的宽和高。然后,对这样的样本和其沿垂直轴翻转得到的翻转样本计算特征。最后在该样本及其翻转样本的特征描述集合上聚类为左、右姿势。
聚类方法是带有下述约束的变体在线k均值聚类:样本和其翻转不得在同一个聚类中。首先选择一个样本及其翻转,将其特征作为两个聚类的种子,然后取出一个新的样本,按到聚类中心欧氏距离最近的原则加入其中一个聚类中,其翻转加入另一个聚类中。
所有样本处理完后,再使用局部搜索方法提高聚类的性能。重复选择一个样本和其翻转,交换所在聚类看是否能降低样本到聚类中心的平方距离之和(SSD)。
通过选择不同初始种子样本重复聚类过程几次以避免很差的局部最小值,最后选择SSD最小的聚类。
2.2 Part Initialization
给出根滤波器(是模板吗?或者说是SVM分类器吗?)后,我们在根滤波器的两倍分辨率选择k个部件位置和分割出根滤波器的d×d大小的部件区域。默认k=8,d=6(6像素?好像有点小啊)。
采用两个阶段来选择部件位置。第1阶段使用贪婪方法,第2阶段提纯初始部件位置。
将根滤波器插值到其两倍分辨率并计算插值后根滤波器的“能量”地图。能量地图保存根滤波器每个cell正权重(如果有负权重如何处理?)(向量)范数的平方。K个部件依次占据能量最大的位置,已被占据的cell能量置0。
贪婪初始化部件位置后,使用局部搜索来随机移动部件位置(指单纯的移动位置吗?如何确定方向,步长多大?),按随机顺序依次移动一个,以使所有部件覆盖的能量之和最大。如无法获得更好的覆盖,则按不同的顺序重新选择部件的初始位置后再来使用局部搜索(按不同的顺序?部件并没有明确的区分啊?)。重复几次选择覆盖最多能量的部件位置分布。
2.3 Image Boundary Occlusion
PASCAL中存在很多对象,其某些部分在图像边界之外。为处理这些部分可见的对象,给每幅图像的特征描述添加了边界区域。
[2]中直接将图像边界区域(在图像之外)中的特征向量设置为0向量。这样,如果某滤波器完全位于边界区域中则其得分为固定的0,这与位于图像中的滤波器的响应相比也许不太合适。这里,特征向量增加了一维(?augment feature vectors with an additional feature),如果特征在图像范围内,该维的值为0,否则为1。当滤波cell在边界区域时,该边界遮挡特征使得我们能学习出一个偏置参数,该参数会作为滤波器响应的一部分。
该0/1遮挡特征与[3]中提出的一样,但在我们的实现中有两点不同。在[3]中,每个遮挡滤波器使用1个遮挡特征(不是每个滤波器cell)来计算位于边界区域的滤波器cell个数。其二是对训练数据的要求。[3]的训练过程要求手动延伸PASCAL包围盒每个被图像边缘裁剪了的以确定其延伸到图像边缘之外的距离,我们的方法没对PASCAL标注做任何改变。在训练过程的隐变量完善(completion)阶段,我们先使用图像边界裁剪检测窗口,然后计算假定的检测窗口与实际包围盒的重叠区域。
3 Regularization
[2]通过优化隐SVM目标函数来训练模型参数
实验发现,只惩罚范数最大的component向量能得到更好的检测结果。
4 Results
The tables below summarize the current results in thePASCAL 2006, 2007, and 2009 datasets following the comp3 protocol.
| aero | bike | bird | boat | bottle | bus | car | cat | chair | cow | table | dog | horse | mbike | person | plant | sheep | sofa | train | tv | mean |
Without context | 39.5 | 48.2 | 11.4 | 12.3 | 28.6 | 42.3 | 40.4 | 25.0 | 17.4 | 20.5 | 15.3 | 14.5 | 42.1 | 44.4 | 41.9 | 12.7 | 24.3 | 16.5 | 43.3 | 32.2 | 28.6 |
With context | 43.6 | 50.8 | 15.1 | 14.1 | 30.2 | 45.6 | 41.8 | 27.3 | 18.9 | 22.1 | 15.8 | 18.2 | 45.7 | 47.3 | 43.8 | 14.3 | 26.4 | 18.2 | 46.8 | 33.7 | 31.0 |
Table 1: PASCAL VOC 2009 comp3
| aero | bike | bird | boat | bottle | bus | car | cat | chair | cow | table | dog | horse | mbike | person | plant | sheep | sofa | train | tv | mean |
Without context | 28.9 | 59.5 | 10.0 | 15.2 | 25.5 | 49.6 | 57.9 | 19.3 | 22.4 | 25.2 | 23.3 | 11.1 | 56.8 | 48.7 | 41.9 | 12.2 | 17.8 | 33.6 | 45.1 | 41.6 | 32.3 |
With context | 31.2 | 61.5 | 11.9 | 17.4 | 27.0 | 49.1 | 59.6 | 23.1 | 23.0 | 26.3 | 24.9 | 12.9 | 60.1 | 51.0 | 43.2 | 13.4 | 18.8 | 36.2 | 49.1 | 43.0 | 34.1 |
Table 2: PASCAL VOC 2007 comp3
| bike | bus | car | cat | cow | dog | horse | mbike | person | sheep | mean |
Without context | 67.1 | 65.8 | 70.7 | 26.8 | 47.7 | 15.8 | 48.3 | 66.0 | 41.0 | 45.6 | 49.5 |
With context | 69.2 | 67.6 | 71.5 | 29.0 | 51.4 | 19.4 | 54.0 | 70.0 | 44.3 | 47.4 | 52.4 |
Table 3: PASCAL VOC 2006 comp3
We also trained and tested a model on the INRIA Persondataset. We scored the model using
the PASCAL evaluation methodology in the complete testdataset, including images without people.
INRIA Person average precision: 88.2
[1] M. Everingham, L. Van Gool, C. K. I. Williams, J.Winn, and A. Zisserman. The PASCAL Visual Object Classes Challenge 2009(VOC2009) Results.
[2] P. Felzenszwalb, R. Girshick, D. McAllester, and D.Ramanan. Object detection with discrim-inatively trained part based models. IEEETransactions on Pattern Analysis and Machine Intelligence, 2009.
[3] A. Vedaldi and A. Zisserman. Structured outputregression for detection with partial occulsion. In Advancesin Neural Information Processing Systems, 2009.
附:
UoCTTI_LSVM-MDPM:
Our submission is based on [1]. Each class is represented by amixture of deformable part models (6 components with 6 parts per class). Wealso have a binary mask associated to each component of each class to generatepixel-level segmentations from detections. The models were trained frombounding boxes. The segmentation masks were trained from segmentations. [1]Felzenszwalb, Girshick, McAllester, Ramanan, "Object Detection withDiscriminatively Trained Part Based Models", PAMI (preprint)