triplet loss 图像检索_论文阅读_端到端图片检索

最新推荐文章于 2022-08-19 09:54:01 发布

weixin_39649736

最新推荐文章于 2022-08-19 09:54:01 发布

阅读量295

点赞数

文章标签： triplet loss 图像检索

论文地址：https://arxiv.org/abs/1610.07940
项目地址：http://www.xrce.xerox.com/Deep-Image-Retrieval.

基于深度视频表征的端到端图片检索出自2017年cs.CV发表的论文《End-to-end Learning of Deep Visual Representations for Image Retrieval》。该文中的模型效果很好，知识点十分密集，实验数据和结果也非常细致丰富，论文也被频繁引用。

该文中没有太多新发明的算法，以工程实现和效果描述为主，从清洗数据，到实现R-MAC算法，并使用孪生网络和triplet损失函数实现了端到端（end-to-end）的图片检索，还加入了后处理。在Oxford 5k, Paris 6k和Holidays数据集上分别达到了94.7, 96.6, 94.8的mAP高分。

文中包括很多具体实践技术和实验细节，比如对比降维后的效果，调整学习率之后的变化，测试图片和训练图片的不同处理等等，作者使用M40 NVIDIA GPU/12 G，所有模型训练时间在一周以内，也是我们可以复现的环境，总之干货很多。

数据清洗

论文中将建筑数据集作为搜索内容，首先进行数据清洗。使用了SIFT，Hessian仿射关键点检测，来确定同组数据，以及剔除噪声（虽然工作量很大，但只需要在数据预处理阶段做一次）；计算图间的相关性之后，使用清洗后的数据做关系图：图中节点为图片，连线为图片间的关系，然后对低分的边做剪枝，以保证描述同一场景的图片都有明显的视觉关联，处理后最终保留了49,000张图片，共586种地标注，关联关系如下图所示：

大教堂的外部和内部

使用region of interest (ROI)方法标注图中建筑物所在的区域，开始在包含同一建筑物的两张图中分别建立区域Bi,Bj（如下中红虚线框所示），它们是包含图中关键点的最小矩形，并计算仿射变换Aij，不断按以下公式迭代更新区域大小直至收敛：

其中α是一个很小的更新步长，通过计算使几何中值融入图像范围。最终效果如图中绿框所示。

建立模型

由于整个网络的每个组成部分（目标区域、神经网络实现PCA降维、聚合、归一化等）皆可导，因此建立了End-to-end的整体模型。

损失函数

模型的损失函数使用排序损失（ranking loss）的triplet方法，它把两张相关图和一张无关图编成一组代入模型，计算结果应该是两张相似的图用R-MAC提取出的特征的距离更近。如下图所示。

图中灰色部分为共享参数的网络，其中CONV是提取特征的卷积层，Shift+FC功能类似PCA。误差计算公式如下：

其中q表示待检索图片，+为正例（同类图片），-为反例（无关图片），d为描述值，m是距离阈值。分别依据以下三式调节网络参数：

最终代入用于比较相似度的孪生网络（Siamese network）。

其中如何选择每次输入网络的三张图片的具体方法是：先用当前模型对图片池中的图片提取特征，并从中选择N个三图组（triplets），计算误差，并选择误差最大的前N组代入模型调参。理论上每次代入前都应使用此方法选择实例，但由于计算代价太高，每迭代一定次数重新计算一次。

R-MAC

R-MAC论文在2016年发表时，使用了Alexnet和VGG网络提取特征，因此精度不高，文中使用了ResNet-101，并对由此变大的内存需求在程序中做了优化。

除了直接延用R-MAC，论文中还进行了一些改进，比如使用RPN方法优化R-MAC的局部区域计算，该方法有效地利用了标注数据。如下图所示，先用数据集中的标注数据训练区域识别模型，然后将它作为一个模块插入最终模型。RPN的计算量很大，同时又需要有效地利用目标框标注数据，单独训练更为合理；后期并入网络后，在提供候选框同时，还能给出可能性打分score，从而得到最可能的区域，而非限定的具体某个区域。

此外，还加入了多分辨率描述：缩放图片以适配各种大小的物体。虽然从原理上看R-MAC有缩放不变性，但由于输入底层网络时图片大小的差异，提取到的特征也不相同，文中将图片按不同尺度缩放，经过处理后，再将它们合并为同一图片的特征。

后处理

模型在后处理方面，使用了QE和DBA。

Query expansion（QE）查询扩展，是图像后处理的标准方法，它先使用待检索图片寻找Top-N个与其最相似的图片（最近邻），然后计算待检索图片与它们的均值作为特征，并再次搜索相似图（文中未使用空间验证）。其原理是用其邻居的特征来扩展待检图片的特征。计算扩展特征时，除了使用均值方法，还可以根据邻居与图片距离的远近赋予不同的权值。

Database-side feature augmentation（DBA）数据库端的特征扩充，简单地说就是在数据库端使用邻居的特征来扩展图片本身的特征，其原理与QE类似。是否使用DBA，还要看数据库是否实时变化，以及同类别数据的多寡。