Fine-Tuning CNN Image Retrieval with No Human Annotation

论文杂记
上一篇主目录 下一篇

前言
通常训练CNNs需要大量的标记数据,针对这种情况,本文提出一种微调后的CNNs网络结构可用于在大规模无序图像中进行检索。通过利用3d模型中可用的几何图形和摄像机位置来选择正负样例,来增强特定目标检索的性能表现。本文提出一种参数可训练的pooling layer:Generalized-Mean (GeM)来提高检索性能。在VGG网络上使用本文提出的GeM在Oxford Buildings, Paris, and Holidays datasets上得到了最好的检索性能。
IEEE,JULY 2019

本文要点

  1. 利用SfM信息,增强派生的图像表示。与以前的监督方法相比,3D重建训练数据的可变性在图像检索任务中表现优异
  2. 通过相同的训练数据来学习白化,它的作用是补充微调,并进一步提高性能。此外,与端对端学习相比,将白化作为一个后处理步骤来训练效果更好,速度也快得多。【白化见1.3节】
  3. 提出了一个可训练的池层Generalized-Mean (GeM)
  4. 提出了一种新的α-weighted 的查询扩展【相比于用于压缩图像再现的扩展查询技术具有更强的鲁棒性】

【本文代码链接】
http://cmp.felk.cvut.cz/cnnimageretrieval/
https://github.com/ShaneHolmes/cnnimageretrieval-pytorch

本文是《CNN image retrieval learns from BoW: Unsupervised fine-tuning with hard examples》, in ECCV, 2016的改进扩展
本文《Fine-Tuning CNN Image Retrieval with No Human Annotation》下载地址
或者联系博主获取,邮箱:shaneholmes@qq.com

本文引用仅供学习用,如有侵权请联系删除。


1 预备知识

1.1 Structure from Motion (SfM)

文中引用的paper:《From single image query to detailed 3D reconstruction》,IEEE 2015
Structure from Motion (SfM),即从运动到结构,通过相机的移动来确定目标的空间和几何关系,是三维重建的一种常见方法。

SfM: (bundler, VisualSFM, OpenMVG)
input: 一组图片 output:
场景粗糙的3D形状(稀疏重建), 还有每张图片对应的相机参数

https://www.bilibili.com/video/av49289103?from=search&seid=3238883746439954948
参考文章:
https://blog.csdn.net/lpj822/article/details/82716971
https://blog.csdn.net/weeeeeida/article/details/101726093
https://blog.csdn.net/j10527/article/details/78867884
https://blog.csdn.net/qq_33826977/article/details/79834735

本文不需要手工注释数据或对训练数据集的任何假设,而是利用结构-运动(SfM)管道自动重建的三维模型的几何形状和摄像机位置来实现这一点。最先进的检索- sfm管道采用无序的图像收集作为输入,并试图建立所有可能的3D模型。

1.2 池化层

关于池化层的作用和各种池化方法:
《CNN的工作原理》 3 池化

1.3 Whitening(白化)

whitening (白化)这个词,可能在深度学习领域比较常遇到,其实whitening 是PCA【《主成分分析(PCA)》】的进一步,其目的就是降低输入的冗余性。(假设训练数据是图像,由于图像中相邻像素之间具有很强的相关性,所以用于训练时输入是冗余的)
输入数据集X,经过白化处理后,新的数据X’满足两个性质:

(1)特征之间相关性较低(PCA)
(2)所有特征具有相同的方差(PCA后新坐标下方差归一化)

使用PCA降维即求出特征向量,然后把数据X映射到新的特征空间,这样的一个映射过程,其实就是满足了我们白化的第一个性质:除去特征之间的相关性。因此白化算法的实现过程,第一步操作就是PCA,求出新特征空间中X的新坐标,然后再对新的坐标进行方差归一化操作。

2 本文相关工作

对于人工标注的图像,来自相同对象类别的两个图像可能完全不同,例如建筑物的不同视角或不同的建筑物。 我们从大型无序图像收集开始,以全自动方式解决了这个问题,而无需任何人工干预。

2.1 训练数据

附录

【问题】end-to-end learning used to image retrieval???
《End-to-end learning of deep visual representations for image retrieval》

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值