图像检索技术简述

最新推荐文章于 2024-07-26 13:24:37 发布

小火箭丶

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量5.9k

点赞数 9

分类专栏：图像检索文章标签：人工智能

本文链接：https://blog.csdn.net/qq_35912099/article/details/118654072

版权

图像检索专栏收录该内容

4 篇文章 0 订阅

订阅专栏

图像检索技术主要分为两类，一类是基于文本的图像检索（Text Based Image Retrieval），另一类是基于内容的图像检索（Content Based Image Retrieval）

TBIR主要是利用文本标注的方式为图像添加关键词，比如物体、场景、尺寸等信息，检索图像时根据关键词检索想要的图像。这种方式实现起来简单，但是非常耗费人工（需要人为给每一张图像标注），对于大型数据库检索不太现实。此外，人工标注存在人为认知误差，对相同图像，人理解不一样，也到导致标注不一致，这使得基于文本的图像检索逐渐失去光彩。

解决方法：自动化获取图像尺寸、大小、内容等信息、并数据信息索引化

CBIR是基于图像内容特征来检索图像，这免去人为标注图像的过程。基于内容的图像检索技术是采用某种算法来提取图像中的特征，并将特征存储起来，组成图像特征数据库。当需要检索图像时，采用相同的特征提取技术提取出待检索图像的特征，并根据某种相似性准则计算得到特征数据库中图像与待检索图像的相关度，最后通过由大到小排序，得到与待检索图像最相关的图像，实现图像检索。这种方式使得检索过程自动化，图像检索的结果优劣取决于图像特征提取的好坏，在面对海量数据检索环境中，我们还需要考虑到图像比对（图像相似性考量）的过程，采用高效的算法快速找到相似图像也至关重要。

解决方法：深层次特征优于传统算法的低层次特征(颜色、边缘、轮廓、人为设计的特征算子等等)

图像检索流程示意图

图像检索所面临的挑战

图像光照、尺度、视角、遮挡、背景
另外就是检索的速度、数据特征库的存储模式(Vp-tree)。特征提取的方法选取、特征的编码方式、比较相似性方法等的选择。

简单介绍几种传统的入门检索方法、效果差强人意、可以练练手、追求效果和实际使用还是要调研一下神经网络的深层特征提取的检索方法

1、ahash

1、缩小尺寸
去除高频和细节的最快方法是缩小图片，将图片缩小到8x8的尺寸，总共64个像素。不要保持纵横比，只需将其变成8*8的正方形。这样就可以比较任意大小的图片，摒弃不同尺寸、比例带来的图片差异。
2、简化色彩
将8*8的小图片转换成灰度图像，将64个像素的颜色(red,green,blue)转换成一种颜色（黑白灰度）。
3、计算平均值
计算所有64个像素的灰度平均值。
4、比较像素的灰度
将每个像素的灰度，与平均值进行比较。大于或等于平均值，记为1；小于平均值，记为0。
5、计算hash值
将上一步的比较结果，组合在一起，就构成了一个64位的整数，这就是这张图片的指纹。组合的次序并不重要，只要保证所有图片都采用同样次序就行了。(我设置的是从左到右，从上到下用二进制保存)。

2、phash

1、缩小尺寸
pHash以小图片开始，但图片大于8*8，32*32是最好的。这样做的目的是简化了DCT的计算，而不是减小频率。
2、简化色彩
将图片转化成灰度图像，进一步简化计算量。
3、计算DCT
DCT是把图片分解频率聚集和梯状形，在这里使用32*32的DCT变换。
4、缩小DCT
虽然DCT的结果是32*32大小的矩阵，但我们只要保留左上角的8*8的矩阵，这部分呈现了图片中的最低频率。
5、计算平均值
如同均值哈希一样，计算DCT的均值，
6、进一步减小DCT
这是最主要的一步，根据8*8的DCT矩阵，设置0或1的64位的hash值，大于等于DCT均值的设为”1”，小于DCT均值的设为“0”。
7、构造hash值
将64bit设置成64位的长整型，组合的次序并不重要，只要保证所有图片都采用同样次序就行了。与均值哈希一样，pHash同样可以用汉明距离来进行比较。(只需要比较每一位对应的位置并算计不同的位的个数)

3、全局直方图_color_hist

每张图片都可以生成颜色分布的直方图（color histogram）。如果两张图片的直方图很接近，就可以认为它们很相似。

任何一种颜色都是由红绿蓝三原色（RGB）构成的，所以上图共有4张直方图（三原色直方图 + 最后合成的直方图）。

如果每种原色都可以取256个值，那么整个颜色空间共有1600万种颜色（256的三次方）。针对这1600万种颜色比较直方图，计算量实在太大了，因此需要采用简化方法。可以将0～255分成四个区：0～63为第0区，64～127为第1区，128～191为第2区，192～255为第3区。这意味着红绿蓝分别有4个区，总共可以构成64种组合（4的3次方）。

任何一种颜色必然属于这64种组合中的一种，这样就可以统计每一种组合包含的像素数量。

上图是某张图片的颜色分布表，将表中最后一栏提取出来，组成一个64维向量(7414, 230, 0, 0, 8, ..., 109, 0, 0, 3415, 53929)。这个向量就是这张图片的特征值或者叫"指纹"。

于是，寻找相似图片就变成了找出与其最相似的向量。这可以用皮尔逊相关系数或者余弦相似度算出。

4、局部直方图_color_hist

局部直方图与全局直方图方法基本一致、主要区别是人为设置掩布从图像中去提取一些局部的图像就行统计、假设提取n个区域、就有nx64维的特征向量。

5、轮廓比对

除了颜色构成，还可以从比较图片内容的相似性入手。

首先，将原图转成一张较小的灰度图片，假定为50x50像素。然后，确定一个阈值，将灰度图片转成黑白图片。

如果两张图片很相似，它们的黑白轮廓应该是相近的。于是，问题就变成了，第一步如何确定一个合理的阈值，正确呈现照片中的轮廓？

显然，前景色与背景色反差越大，轮廓就越明显。这意味着，如果我们找到一个值，可以使得前景色和背景色各自的"类内差异最小"（minimizing the intra-class variance），或者"类间差异最大"（maximizing the inter-class variance），那么这个值就是理想的阈值。

1979年，日本学者大津展之证明了，"类内差异最小"与"类间差异最大"是同一件事，即对应同一个阈值。他提出一种简单的算法，可以求出这个阈值，这被称为"大津法"（Otsu's method）。下面就是他的计算方法。

有了50x50像素的黑白缩略图，就等于有了一个50x50的0-1矩阵。矩阵的每个值对应原图的一个像素，0表示黑色，1表示白色。这个矩阵就是一张图片的特征矩阵。

两个特征矩阵的不同之处越少，就代表两张图片越相似。这可以用"异或运算"实现（即两个值之中只有一个为1，则运算结果为1，否则运算结果为0）。对不同图片的特征矩阵进行"异或运算"，结果中的1越少，就是越相似的图片。

其他算法还有SIFT、BOF等等可自行了解

相似性匹配可使用卡方、欧式、汉明、余弦距离等自行了解

小火箭丶

关注

9
点赞
踩
49

收藏

觉得还不错? 一键收藏
2
评论
图像检索技术简述

图像检索技术主要分为两类，一类是基于文本的图像检索（Text Based Image Retrieval），另一类是基于内容的图像检索（Content Based Image Retrieval）TBIR主要是利用文本标注的方式为图像添加关键词，比如物体、场景、尺寸等信息，检索图像时根据关键词检索想要的图像。这种方式实现起来简单，但是非常耗费人工（需要人为给每一张图像标注），对于大型数据库检索不太现实。此外，人工标注存在人为认知误差，对相同图像，人理解不一样，也到导致标注不一致，这使得基于文本的图像
复制链接

扫一扫

专栏目录