CVPR2015一些文章整理

最新推荐文章于 2022-04-10 09:23:38 发布

三更灯火五更鸡

最新推荐文章于 2022-04-10 09:23:38 发布

阅读量889

点赞数

分类专栏：论文阅读与理解文章标签： CVPR2015

论文阅读与理解专栏收录该内容

6 篇文章 0 订阅

订阅专栏

简单看了一部分CVPR2015的文章。整理了一下。其中我决定把精彩的文章加粗。主要是觉得有些文章只读了一遍，没有发现很多很有道理的point（尽管我承认他们的工作都花了很大的功夫，但是没有激起太大的兴趣去follow。也许有机会读第二遍的时候会再highlight）：

CNN结构的：
--- Fisher Vectors Meet Neural Networks: A Hybrid Classification Architecture，Florent Perronnin and Diane Larlus

相比于标准的CNN，变化是将卷积层全部变成标准的FV，全连接层的部分做分类层保持不变。比起标准的FV，无疑是把分类器变成了MLP。ACC相比标准的CNN下降，相比标准的FV提高。这种从标准CNN入手，把前面的卷积和后面的全连通隔裂开对待/优化的文章还有arxiv上He Kaiming的 Object Detection Networks on Convolutional Feature Maps。

物体检测与分割：
---- Learning to Propose Object， Philipp Krähenbühl, Vladlen Koltun

---- Improving Object Proposals with Multi-Thresholding Straddling Expansion， Xiaozhi Chen, Huimin Ma, Xiang Wang, Zhichen Zhao

---- Hypercolumns for Object Segmentation and Fine-Grained Localization ， Bharath Hariharan, Pablo Arbeláez, Ross Girshick, Jitendra Malik
这个比较有意思了，明白说CNN每一层都是有用处的。Holistically-Nested Edge Detection的模型跟这个模型有相似的味道。
---- Taking a Deeper Look at Pedestrians
这文章在方法上有啥创新点？好像就是把Cifar-net和Alexnet用在对行人的建模上。

---- A Convolutional Neural Network Cascade for Face Detection ，Haoxiang Li，Gang Hua
CNN + Cascade，Calibration层有点意思，模型里还引入了multi-scale。
---- Deeply learned face representations are sparse, selective, and robust , Yi Sun, Xiaogang Wang, Xiaoou Tang

DeepID系列之DeepID2+。在DeepID2之上的改进是增加了网络的规模(feature map数目)，另外每一层都接入一个全连通层加supervision。最精彩的地方应该是后面对神经元性能的分析，发现了三个特点：1.中度稀疏最大化了区分性，并适合二值化；2.身份和attribute选择性；3.对遮挡的鲁棒性。这三个特点在模型训练时都没有显示或隐含地强加了约束，都是CNN自己学的。已经迫不及待要看DeepID3了。

---- Hypercolumns for Object Segmentation and Fine-Grained Localization ， Bharath Hariharan, Pablo Arbeláez, Ross Girshick, Jitendra Malik
这个比较有意思了，明白说CNN每一层都是有用处的。Holistically-Nested Edge Detection的模型跟这个模型有相似的味道。
---- Fully Convolutional Networks for Semantic Segmentation (Best Paper Honorable Mention) , Jonathan Long, Evan Shelhamer, Trevor Darrell
文章把全连接层当做卷积层，也用来输出feature map。这样相比于Hypercolumns/HED 这样的模型，可迁移的模型层数（指VGG16/Alexnet等）就更多了。但是从文章来看，因为纯卷积嘛，所以feature map的每个点之间没有位置信息的区分。相较于Hypercolumns的claim，鼻子的点出现在图像的上半部分可以划分为pedestrian类的像素，但是如果出现在下方就应该划分为背景。所以位置信息应该是挺重要需要考虑的。这也许是速度与性能的trade-off?
----- Is object localization for free - Weakly-supervised learning with convolutional neural networks
弱监督做object detection的文章。首先fc layer当做conv layer与上面这篇文章思想一致。同时把最后max pooling之前的feature map看做包含class localization的信息，只不过从第五章“Does adding object-level supervision help classification”的结果看，效果虽好，但是这一物理解释可能不够完善。

（PS. arxiv上有三篇借助CNN做一般物体检测的：
----DeepBox: Learning Objectness with Convolutional Networks，Weicheng Kuo，Bharath Hariharan，Jitendra Malik
没太大意思，就是把CNN用在所有物体类的训练上。另外证明学到的模型是generic的时候用了IOU-0.5的准确率而不是0.8或者AR是没有很高信服度的。（ICCV2015接收）
---- Boosting Convolutional Features for Robust Object Proposals, Nikolaos Karianakis
把VGG第一层输出当做feature channel然后接boosting做分类。并没有证明算法的一般性。

---- Learning to Segment Object Candidates， Pedro O. Pinheiro， Ronan Collobert， Piotr Dollar
文章好像没讲明白score那个分支训练集是如何做出标注的（@8.7又读了一遍，如何标注就靠正样本选取时的constraints，自己第一遍的时候没弄明白）。segment相比bounding box在速度上也有点吃亏，所以5秒一个图算慢的（其实5秒就能过一个图还是很快的啊，用的是VGG16的网络）。但比起MCG这速度还是快多了。
另外Microsoft COCO今年被用起来了。Microsoft COCO也做成竞赛了，好像Detection Task今年在ICCV15要和ILSVR合办 workshop 。)

CNN做边缘轮廓检测：
---- DeepContour： A Deep Convolutional Feature Learned by Positive-sharing Loss for Contour Detection
二分类变多分类，有点joint learning的意思。

---- DeepEdge A Multi-Scale Bifurcated Deep Network for Top-Down Contour Detection
相当于一种multi-clues做二分类问题。文章里的multi-scale和上面CNN+Cascade那篇文章模型里用到的multi-scale不是同一个东西，用DSP-SIFT一文的总结就是，本文说的multi-scale只是在size-space中选了多个size，并不是CNN+Cascade一文中在scale-space中选择了多个scale。multi-scale是解决真正的不同尺度的多样性，而multi-size更像是引入不同的context以及克服occlusion。个人理解这两点的目标区别于此。

PS. 上面两篇相比传统方法提高并不明显。看来在比较底层的问题上人工特征与end-to-end学习模型相比没有在high-level计算机视觉任务上差距的大。
arxiv上Tu Zhuowen有一篇性能更高的，优势还是很明显的（因为逐像素检测相比全图检测，失去了全局信息。这也隐含了R-CNN的缺点吧）：
---- Holistically-Nested Edge Detection
分析了各种multi-scale model， Wang Naiyan 在VALSE的 tutorial 上也用了这个论文的插图。这个模型很复杂了，除了讨论multi-scale以外，还叠加了cnn multi-layer的区分性，有点Hypercolumns的味道。（ICCV2015接收）

利用CNN的局部性解决计算机视觉问题：
---- A Discriminative CNN Video Representation for Event Detection ，Zhongwen Xu, Yi Yang, Alex G. Hauptmann
CNN conv5输出可以作为concept detector。valse上的ppt：这里。

---- Exploiting Local Features from Deep Networks for Image Retrieval
Workshop paper，与上文的思路如出一辙，不过证明了在检索过程中concept概念越抽象不一定越好--因为搜索毕竟是instance-level的，不是class-level的。

图像检索的：
---- Query-Adaptive Late Fusion for Image Search and Person Re-Identification
郑博每年都有CVPR，恭喜。在valse上的ppt：这里

---- Early Burst Detection for Memory-Efficient Image Retrieval， Miaojing Shi, Yannis Avrithis, Hervé Jégou
Hervé Jégou也加入FAIR了
---- Pairwise Geometric Matching for Large-scale Object Retrieval
利用Geometry information做 verification的。速度还挺快。

Eye-fixation:
---- Predicting Eye Fixations Using Convolutional Neural Networks, Nian Liu, Junwei Han, Dingwen Zhang, Shifeng Wen, Tianming Liu
之前没太关注eye-tracking data。这篇文章就是用预测eye fixation的，跟显著性有比较大的联系。这篇文章中利用的multi-resolution的模型，在看过其他文章之后不会觉得有特别特殊的地方，但是从一个contrast导致saliency的角度去结束这里用到的multi-resolution模型，还有点意思。
---- Eye Tracking Assisted Extraction of Attentionally Important Objects From Videos， Karthikeyan Shanmuga Vadivel, Thuyen Ngo, Miguel Eckstein, B.S. Manjunath
Manj组今年唯一的CVPR论文了，用eye-tracking数据辅助其他（指除了saliency）computer vision task，这里做的是video里的objectness。

其他不好分类：
---- MatchNet Unifying Feature and Metric Learning for Patch-Based Matching， Xufeng Han， Thomas Leung， Yangqing Jia， Rahul Sukthankar，Alexander C. Berg
wide-baseline matching，相比与arxiv14年的Descriptor Matching with Convolutional Neural Networks a Comparison to SIFT，这篇文章是监督的，上篇文章是无监督的。patch matching其实和face verification、再辨识的关联挺大的。文中有说到测试的时候采用两步测试的方法：第一步是特征提取（过一个Tower就行），第二步是matching（把两个Tower的特征比较起来），这样先把第一步做完，特征保存起来，做第二步就容易了。联想道 Valse 上王晓刚老师将NIPS14那篇Joint identification and verification一文，王老师说verification那个网络的时候提到的缺点，不就可以用这个两步测试的方法来解决吗？

---- Domain-Size Pooling in Local Descriptors: DSP-SIFT ， Jingming Dong，Stefano Soatto
wide-baseline matching，相比前面的MatchNet，这篇文章是无监督的。这篇文章Figure8解释了scale-space和size-space的概念，解释的非常好。但是DoG为什么归为size-space？我仍然觉得DoG是属于scale-space的。

---- Deep Neural Networks are Easily Fooled （深度学习对抗样本）

---- Age and Gender Classification using Convolutional Neural Networks
CNN做性别和年龄判决的。年龄判决不是用回归，而是把年龄分组，然后用分类的方法做。有点简单。而且Age和Gender分了两个网络分别做，竟然没有联合起来做。

还在看，慢慢整理吧。

另外这里有其他大神做的CVPR2015年的整理和总结：