基于内容的图像检索（CBIR）会是下一个热门研究领域吗？（一）

最新推荐文章于 2021-03-25 11:29:50 发布

jiangnanmeiying

最新推荐文章于 2021-03-25 11:29:50 发布

阅读量1.8k

点赞数

分类专栏：计算机视觉文章标签： semantic 图像处理 yahoo 阿里巴巴搜索引擎 google

本文链接：https://blog.csdn.net/jiangnanmeiying/article/details/4730868

版权

计算机视觉专栏收录该内容

3 篇文章 0 订阅

订阅专栏

基于内容的图像检索（CBIR）会是下一个热门研究领域吗？（一）

在我们使用搜索引擎时，会在搜索选项上看到图片这个选项，我曾经用过几次，但是感觉不是做的很好，一是图片的量少，另一个是图片与我想搜索的内容有很多差异。网页搜索是基于文本的搜索，本身就是语义的一个直接表达，在文本中得到了直接的体现，所以搜索的技术相对比较简单，经过这几年的发展已经挺成熟了（至少在使用上是这样的感觉）。图片的搜索相对起步较晚些，且难度比较大。其中原因有很多：在早期的时候图片的数量远远少于文字(毕竟文字是信息的主要载体)，但是随着社会进步，互联网的发展，多媒体在近几年得到了迅猛的发展，其中图片的量是爆炸式的增长。各类的视频分享网站的出现就是一个信号。基于人工标记的图片搜索已经远远跟不上人们的需求，而且如何有效的标记一张图片便于搜索也是一个问题(你的标记是否是最贴近用户的想法)。基于内容的图像检索（CBIR）的研究应运而生，目前很多大公司都在做这方面的研究GOOGLE，YAHOO，百度，甚至是阿里巴巴，很多学术机构也在做这方面的工作，MIT，CMU等。

1994~2000年是CBIR的发展初级阶段，有很多技术的尝试，也获得了一些成功。Smeulder在2000年的一片文章总结了这段过程，并把这个研究方向做了更高层次的分析。CBIR的开发中有两个关键的问题需要克服：1.传感器鸿沟（sensor gap）指的是自然场景中的对象和我们对这个对象的数字描述的区别,包括遮挡，混乱，视点不同等。2，语义鸿沟（semantic gap）指的是图片中提取的信息和实际表达的语义的区别。

从图片中提取内容可以分为两部分：图像处理和特征构造。图像的处理，特征构造主要是围绕颜色，轮廓，纹理等展开，目的是减少传感器鸿沟。当特征被提取后，剩下的问题就是在检索中如何索引和匹配这些点，主要作用是减少语义鸿沟。以前很多的方法的性能都是依靠图像分割（见前一篇博文）的效果，如何降低这种依赖性是值得研究的一个问题。

那么现实世界中的图像检索系统应该是什么样子的呢？CBIR的设计需要从用户和检索系统两个角度出发，其中涉及到搜索的方式，搜索结果的显示，搜索范围等。从用户的检索角度出发可分：浏览、冲浪、明确搜索。难度依次增加。检索图片的请求方式和处理方法是CBIR的核心，请求方式大致可分为：关键字、自由语言(提问或一个句子的形式)、图片、图形、复合式请求。基于关键字的搜索可以看成是文本搜索的一个范例，处理比较简单。基于图片的搜索或者说基于内容的搜索是CBIR中很重要的一个问题。目前的图片索引大部分是基于文本的，基于文本的方法就是需要标记图片的关键词，很少有图片是伴有注释或标记的（因此基于文本的方式面临一个中间环节，图片的标记）。网上有一个叫ESP的游戏，很流行，就是对数以百万的图片进行注释。在搜索结果的显示上，基本上是以相关性的程度来排列的，也可按时间、类别、层次分。这个可以从用户的如何组织图片角度出发考虑，有基于视觉内容的和基于概念的图片管理方式，这两个有各自的优缺点。未来图片搜索技术的的开发将依赖于基于文本和基于内容的搜索方式，前者主要从用户角度出发提高可靠性。相信通过结合两种技术可以提高图片搜索的鲁棒性。（基于内容的的方式是否真有必要呢，基于文本的难道不能满足吗？一张图片的内容如何来表达呢，基于内容的方式的核心是否就是自动注释图片技术呢？）