漫谈计算机视觉

最新推荐文章于 2023-12-07 15:24:33 发布

蝴蝶也可以飞过沧海

最新推荐文章于 2023-12-07 15:24:33 发布

阅读量900

点赞数

分类专栏：图像处理文章标签：计算机视觉

图像处理专栏收录该内容

32 篇文章 53 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

从输入图象到信息获取之间存在着巨大的认知空白，其间需要经过一系列十分复杂的信息处理和理解过程。想象一下，在火车站，我们可以从茫茫人群中精确地找出要迎接的伙伴，这远非现在的机器学习、搜索引擎所能解决的。这再次证明人类视觉系统的强大。对人类视觉过程本质的认识，乃是揭开机器视觉进步的关键。对计算机而言，所有的输入均是矩阵，机器视觉的目的，就是要从这些矩阵中获取有用的信息。

计算机对图像内容的识别，按照难度、应用场景、所使用方法的不同，可以划分为三类：
1、近重复图片检索，主要是查找同源图片的不同版本（光照、旋转、缩放、模糊、logo、水印等、裁剪）
2、场景图片检索，又称物件识别检索，主要是查找在不同场景中出现同一物体，主要需要克服遮挡、仿射、视角改变等效应
3、同类物体检索，即平时所说的CBIR系统，往往需要一些训练、学习过程。

下图很好地说明了这三类检索的区别：

上述1的近重复图片检索，采用edge histogram、scalable color等mpeg-7规范产生的图像签名来构建系统，辅以locality sensitive hash等相似检索的数据结构，能够达到不错的效果，可以用于版权图片保护等应用。

上述3的同类物体检索，自从IBM最早提出基于CBIR的QBIR时，就有广泛的研究。但过于复杂的模型构建以及难以提高的准确率和召回率，一直是难以逾越的鸿沟。要让计算机理解一副图片
，其难度远远大于识别一副图片。

不少学者的工作重点将集中在上述的场景图片检索。譬如，一些特征点（haar、sift、surf、mser等等）技术别用于两两图像的匹配：

这类特征点共同的特点在于，对旋转、缩放、模糊、亮度、仿射变形、视角变换等都具有很强的抵抗性，如下图所示：

前面所述均是针对两两图像之间的识别，如何构建一个规模适中的图片搜索引擎呢？我们的需求应该是类似这样的：

当前日趋成熟的文本搜索引擎，有值得我们借鉴的地方吗？

类似的方式，我们是否也可以对图片搜索采用类似的“视觉词库”的方式呢？

视觉词库和文本中的语料有一个很大的区别，就是图片的信息量以及噪音均极为丰富，因此需要使用聚类的方式对其加以量化，许多极为相似的特征可以用一个“视觉词”来表示：

有了“视觉词”的概念后，图像搜索的问题就转变为K-NN（K近邻查找）问题了，采用诸如K-mean、Hierarchy K-mean、Approximate Kmean等方法，并通过一些文本搜索中优化ranking的方法提高准确率和召回率，这些细节，都在以后的文章中介绍吧。

蝴蝶也可以飞过沧海

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
漫谈计算机视觉

从输入图象到信息获取之间存在着巨大的认知空白，其间需要经过一系列十分复杂的信息处理和理解过程。想象一下，在火车站，我们可以从茫茫人群中精确地找出要迎接的伙伴，这远非现在的机器学习、搜索引擎所能解决的。这再次证明人类视觉系统的强大。对人类视觉过程本质的认识，乃是揭开机器视觉进步的关键。对计算机而言，所有的输入均是矩阵，机器视觉的目的，就是要从这些矩阵中获取有用的信息。计算机对图像内容的识别，
复制链接

扫一扫