图像检索与识别——词袋模型(Bag-of-features models)

一、定义

计算机视觉单词袋是一种描述计算图像之间相似度的技术,常用于用于图像分类当中。该方法起源于文本检索(信息检索),是对NLP“单词袋”算法的扩展。在“单词袋”中,我们扫描整个文档,并保留文档中出现的每个单词的计数。然后,我们创建单词频率的直方图,并使用此直方图来描述文本文档。在“视觉单词袋”中,我们的输入是图像而不是文本文档,并且我们使用视觉单词来描述图像。

对于任意一幅图像,视觉词袋(BoVW,Bag of Visual Words)模型模型提取该图像中的基本元素,并统计该图像中这些基本元素出现的频率,用直方图的形式来表示。通常使用“图像局部特征”来类比BoW模型中的单词,如SIFT、SURF、HOG等特征,所以也称视觉词袋模型。图像BoVW模型表示的直观示意图如图所示

如上,每个图有不同种类的纹理,统计每个纹理的直方图(出现数量),右边这就是词袋。

二、步骤

视觉的词袋模型通常分为以下四个阶段:

  1. 图像预处理阶段: 在这个阶段,图像会经过一系列预处理操作,包括灰度化、尺寸调整、边缘检测等操作,以便将图像转化为计算机能够处理的形式。

  2. 特征提取阶段: 在这个阶段,从预处理后的图像中提取出各种特征,比如颜色直方图、边缘信息、纹理特征等,以便能够用来描述图像。

  3. 词袋生成阶段&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值