![182753d6e6850726d3c694fb6704f737.png](https://i-blog.csdnimg.cn/blog_migrate/aa17f15658c1f55d39a517aa8e9c3cd8.jpeg)
摘要
基于散列的搜索算法为大规模相似度搜索落地提供了一个非常有前途的方法。为了获得紧密的哈希码,最近的研究试图通过自动学习数据的哈希函数来实现。本论文,通过多模数据的内容学习哈希函数,提出了一个基于增强统一正则化框架的新奇的多模哈希函数学习方法,称作统一正则化哈希(CRH)。通过求解 DC(凸函数的差)程序来学习哈希码的每个比特的哈希函数,而对多个比特的学习则通过升压过程进行,从而可以依次减小哈希函数引入的偏差。 我们在两个可公开获得的数据集上,将 CRH 与两种最新的多模式哈希函数学习方法进行了经验比较。
介绍
最近邻搜索,又名相似度搜索在很多应用中扮演了很重要的角色,包括文档检索、目标识别、重复检测等。围绕最近邻搜索提出的所有算法中基于散列的算法在最近几年引起了相当大的兴趣。散列算法最大的优势在于使用二进制的哈希代码用于信息检索,不仅减小了存储需求而且具有很高的计算效率。为了保持数据的相似性,在过去几十年中开发了一系列被称为局部敏感性散列算法(LSH),LSH 的核心在于将数据转换到哈希仓库中,然后通过转换后的数据碰撞反应数据之间的相关性,但是为了保证获取可靠的性能,LSH 在实际运用中经常产生很长的哈希代码。该缺点主要归因于它们的数据无关性质,该性质不能非常准确地捕获哈希码中的数据特征。 此外,在许多应用中无法使用某些通用距离或相似性度量轻松定义邻居。因此,过去几年出现了新的研究趋势,通过自动从数据中学习哈希函数,我们将此新趋势称为哈希函数学习(HFL)。
算法
![1b17a5a913c7323446d111cbaf7e7f6f.png](https://i-blog.csdnimg.cn/blog_migrate/c228f36bfffaf515e3fcc5a7b4a653c2.jpeg)
实验
在实验中,对比了 CRH 算法和两种最先进的多模哈希算法,分别是 CMSSH 和 CVH 算法。数据集采用 Wiki 和 Flickr 网站的公开数据,Wiki 包括 2866 对图像-文字,而 Flickr 包括 186577 个数据对。在每一对数据中,文字描述了图像中的活动,人物信息,同时,图像也尽可能的接近文字内容。在 Wiki 数据集上,图像使用 128 维 SIFT 特征向量表示,标签则由 LDA 模型训练出来的 10 个分类表示,每一对数据都由一个语义标签表示。本实验使用 80%的数据用于训练,20%的数据用于查询。而 Flickr 数据集则使用 500 维的向量表示图像,标签同样使用 LDA 模型的 10 个话题分类。
Wiki 数据集实验结果如下:
表格 1:不同算法在 Wiki 数据集上查询结果
![a83c1ebc1c7d5c2921838df5561fce7c.png](https://i-blog.csdnimg.cn/blog_migrate/6954795cfb7f5c1d34743641e99e3a13.jpeg)
从上述表格可以看出,不管使用哪种哈希编码长度,以及是基于图片搜索文字,还是基于文字搜索图片的场景,CRH 的性能效果要明显优于 CVH 和 CMSSH 的效果。同时,我们又进一步对三种算法的不同维度信息进行了统计对比,结果如下:
![31502097dd1c531775170a3b0fbc2d67.png](https://i-blog.csdnimg.cn/blog_migrate/9122eb694524db7e11d7ea61f3aab8c6.jpeg)
图 1 Wiki 数据集结果对比
Flickr 数据集结果如下:
表格 2 不同算法在 Wiki 数据集上查询结果
![5cfa18d742aa84f992554afe5d703f19.png](https://i-blog.csdnimg.cn/blog_migrate/f5ddf72469d952f67b2aafd2bcf7bae4.jpeg)
与 Wiki 数据集结果类似,使用 CRH 的搜索算法仍然由于其他两种目前比较前沿的 CVH 和 CMSSH 算法。
![55eccc60f79779c9feada093b9e67680.png](https://i-blog.csdnimg.cn/blog_migrate/93a7b900b09bb0f45c8e0ffc2b19b345.jpeg)
图 2 Flickr 数据集结果对比
总结
在本文中提出了一种基于增强型正则化框架的多模式哈希函数学习的新方法。由于优化问题的目标函数是凸函数之差的形式,因此设计一种基于 CCCP 和随机次梯度法的高效学习算法。基于两个基准数据集的比较研究表明,CRH 优于两种最新的多模式散列方法。为了进一步开展这项工作,我们希望对 CRH 进行理论分析,并将其应用于其他任务。未来将开发更有效的优化算法,以进一步提高 CRH 的可伸缩性。
致谢
本文由南京大学软件学院 2020 级硕士生倪烨翻译转述。
这项研究得到了香港研究资助局的普通研究基金 621310 的支持。