Fine-Tuning CNN Image Retrieval with No Human Annotation

最新推荐文章于 2021-01-27 15:37:49 发布

ShaneHolmes

最新推荐文章于 2021-01-27 15:37:49 发布

阅读量2.9k

点赞数

分类专栏：图像检索论文文章标签： image retrieval Fine-Tuning CNN

本文链接：https://blog.csdn.net/qq_33208851/article/details/102717210

版权

图像检索论文专栏收录该内容

13 篇文章 8 订阅

订阅专栏

论文杂记
上一篇	主目录	下一篇

文章结构

【前言】
通常训练CNNs需要大量的标记数据，针对这种情况，本文提出一种微调后的CNNs网络结构可用于在大规模无序图像中进行检索。通过利用3d模型中可用的几何图形和摄像机位置来选择正负样例，来增强特定目标检索的性能表现。本文提出一种参数可训练的pooling layer：Generalized-Mean (GeM)来提高检索性能。在VGG网络上使用本文提出的GeM在Oxford Buildings, Paris, and Holidays datasets上得到了最好的检索性能。
IEEE，JULY 2019

本文要点

利用SfM信息，增强派生的图像表示。与以前的监督方法相比，3D重建训练数据的可变性在图像检索任务中表现优异
通过相同的训练数据来学习白化，它的作用是补充微调，并进一步提高性能。此外，与端对端学习相比，将白化作为一个后处理步骤来训练效果更好，速度也快得多。【白化见1.3节】
提出了一个可训练的池层Generalized-Mean (GeM)
提出了一种新的α-weighted 的查询扩展【相比于用于压缩图像再现的扩展查询技术具有更强的鲁棒性】

【本文代码链接】
http://cmp.felk.cvut.cz/cnnimageretrieval/
https://github.com/ShaneHolmes/cnnimageretrieval-pytorch

本文是《CNN image retrieval learns from BoW: Unsupervised fine-tuning with hard examples》， in ECCV, 2016的改进扩展
本文《Fine-Tuning CNN Image Retrieval with No Human Annotation》下载地址
或者联系博主获取，邮箱：shaneholmes@qq.com

本文引用仅供学习用，如有侵权请联系删除。

1 预备知识

1.1 Structure from Motion (SfM)

文中引用的paper：《From single image query to detailed 3D reconstruction》,IEEE 2015
Structure from Motion (SfM)，即从运动到结构，通过相机的移动来确定目标的空间和几何关系，是三维重建的一种常见方法。

SfM：（bundler, VisualSFM, OpenMVG）
input：一组图片 output：
场景粗糙的3D形状（稀疏重建），还有每张图片对应的相机参数

https://www.bilibili.com/video/av49289103?from=search&seid=3238883746439954948
参考文章：
https://blog.csdn.net/lpj822/article/details/82716971
https://blog.csdn.net/weeeeeida/article/details/101726093
https://blog.csdn.net/j10527/article/details/78867884
https://blog.csdn.net/qq_33826977/article/details/79834735

本文不需要手工注释数据或对训练数据集的任何假设，而是利用结构-运动(SfM)管道自动重建的三维模型的几何形状和摄像机位置来实现这一点。最先进的检索- sfm管道采用无序的图像收集作为输入，并试图建立所有可能的3D模型。

1.2 池化层

关于池化层的作用和各种池化方法：
《CNN的工作原理》 3 池化

1.3 Whitening（白化）

whitening (白化)这个词，可能在深度学习领域比较常遇到，其实whitening 是PCA【《主成分分析（PCA）》】的进一步，其目的就是降低输入的冗余性。（假设训练数据是图像，由于图像中相邻像素之间具有很强的相关性，所以用于训练时输入是冗余的）
输入数据集X，经过白化处理后，新的数据X’满足两个性质：

(1)特征之间相关性较低（PCA）
(2)所有特征具有相同的方差（PCA后新坐标下方差归一化）

使用PCA降维即求出特征向量，然后把数据X映射到新的特征空间，这样的一个映射过程，其实就是满足了我们白化的第一个性质：除去特征之间的相关性。因此白化算法的实现过程，第一步操作就是PCA，求出新特征空间中X的新坐标，然后再对新的坐标进行方差归一化操作。

2 本文相关工作

对于人工标注的图像，来自相同对象类别的两个图像可能完全不同，例如建筑物的不同视角或不同的建筑物。我们从大型无序图像收集开始，以全自动方式解决了这个问题，而无需任何人工干预。

2.1 训练数据

附录

【问题】end-to-end learning used to image retrieval???
《End-to-end learning of deep visual representations for image retrieval》

ShaneHolmes

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
Fine-Tuning CNN Image Retrieval with No Human Annotation

论文杂记上一篇主目录下一篇文章结构1 预备知识1.1【前言】通常训练CNNs需要大量的标记数据，针对这种情况，本文提出一种微调后的CNNs网络结构可用于在大规模无序图像中进...
复制链接

扫一扫