原文代码:https://github.com/kevinlin311tw/caffe-cvprw15
研究背景
在基于内容的图像检索(CBIR)中,使用深度学习的最为简单的方式是使用神经网络特征层的输出用于计算空间距离来判断相似度,但这样会导致浮点型数据储存消耗和维度灾难。
实际策略是使用近似最近邻(ANN)技术或基于Hash的方法来进行加速。这些方法将高维特征投影到较低维度空间,然后生成紧凑二进制代码。所产生的二进制代码,可以通过二进制模式匹配或汉明距离测量来执行快速图像搜索,这显着降低了计算成本并进一步优化了搜索效率。
研究方法
本文引入了一种简单有效的监督学习框架适用于图像检索;通过网络模型的微调,能够同时学习区域特定的图像表示和一系列Hash值;提出的方法超过了现有的baseline;本文方法通过“点对”的方式学习hashing编码,相比于传统的“成对”策略更易于扩展。具体研究方案如下:
- 在ImageNet数据集上使用Alexnet模型进行有监督的预训练;
- 在Alexnet模型上添加隐藏层,并利用上一步得到的权重在自己的数据集上进行微调;
- 得到图像的特征矩阵,Hash值和标签后,通过分层深度搜索进行图片检索。
如下图所示: