漫谈计算机视觉

从输入图象到信息获取之间存在着巨大的认知空白,其间需要经过一系列十分复杂的信息处理和理解过程。想象一下,在火车站,我们可以从茫茫人群中精确地找出要迎接的伙伴,这远非现在的机器学习、搜索引擎所能解决的。这再次证明人类视觉系统的强大。对人类视觉过程本质的认识,乃是揭开机器视觉进步的关键。 对计算机而言,所有的输入均是矩阵,机器视觉的目的,就是要从这些矩阵中获取有用的信息。

计算机对图像内容的识别,按照难度、应用场景、所使用方法的不同,可以划分为三类:
1、近重复图片检索,主要是查找同源图片的不同版本(光照、旋转、缩放、模糊、logo、水印等、裁剪)
2、场景图片检索,又称物件识别检索,主要是查找在不同场景中出现同一物体,主要需要克服遮挡、仿射、视角改变等效应
3、同 类物体检索,即平时所说的CBIR系统,往往需要一些训练、学习过程。

下图很好地说明了这三类检索的区别:



上述1的近重复图片检索,采用edge histogram、scalable color等mpeg-7规范产生的图像签名来构建系统,辅以locality sensitive hash等相似检索的数据结构,能够达到不错的效果, 可以用于版权图片保护等应用

上述3的同类物体检索,自从IBM最早提出基于CBIR的QBIR时,就有广泛的研究。但过于复杂的模型构建以及难以提高的准确率和召回率,一直是难以逾越的鸿沟。要让计算机理解一副图片
,其难度远远大于识别一副图片。

不少学者的工作重点将集中在上述的场景图片检索。譬如,一些特征点(haar、sift、surf、mser等等)技术别用于两两图像的匹配:





这类特征点共同的特点在于,对旋转、缩放、模糊、亮度、仿射变形、视角变换等都具有很强的抵抗性,如下图所示:



前面所述均是针对两两图像之间的识别,如何构建一个规模适中的图片搜索引擎呢?我们的需求应该是类似这样的:



当前日趋成熟的文本搜索引擎,有值得我们借鉴的地方吗?



类似的方式,我们是否也可以对图片搜索采用类似的“视觉词库”的方式呢?



视觉词库和文本中的语料有一个很大的区别,就是图片的信息量以及噪音均极为丰富,因此需要使用聚类的方式对其加以量化,许多极为相似的特征可以用一个“视觉词”来表示:



有了“视觉词”的概念后,图像搜索的问题就转变为K-NN(K近邻查找)问题了,采用诸如K-mean、Hierarchy K-mean、Approximate Kmean等方法,并通过一些文本搜索中优化ranking的方法提高准确率和召回率,这些细节,都在以后的文章中介绍吧。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值