bag-of-words模型

bag-of-words模型是信息检索领域常用的文档表示方法。在信息检索中,BOW模型假定对于一个文档,忽略它的单词顺序、语法、句法等要素,将其仅仅看作是若干个词汇的几何,文档中每个单词的出现都是独立的,不依赖于其他的单词是否出现。

在一个巨大的文档集合D,里面一共有M个文档,文档里面的所有单词提取出来后,一起构成一个包含N个单词的词典,利用Bag-of-words模型,每个文档可以被表示为一个N维向量。向量中每个元素表示词典相关元素在文档中出现的次数,没有表达单词在原来的句子中出现的次序。

BAG-OF-WORDS应用于图像识别的三步:
1.利用SIFT算法,从每类图像中提取视觉词汇,将所有视觉词汇集合在一起。

SIFT算法是提取图像中局部不变特征的应用最广泛的算法,我们可以利用SIFT算法从图像中提取不变特征点,作为视觉词汇,并构造单词表,用单词表中的单词表示一幅图像。

2.利用K-means算法构造单词表。将词义相近的词汇合并,作为单词表中的基础词汇,得到包含k个词汇的单词表。

3.利用单词表中的词汇表示图像。利用SIFT算法可以从每幅图像中提取很多个特征点,这些特征点都可以用单词表中的单词近似替代,通过统计单词表中每个单词在图像中出现的次数,可以讲图像表示成一个k维数的向量。

参考:https://blog.csdn.net/wsj998689aa/article/details/47089153

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值