BOF——Bag-of-Featrures

本文主要介绍:BOF(Bag-of-Featrures)的原理及其应用。

1.1 引言

      文档分类领域有一种模型称为词袋(Bag of words)模型,它是自然语言处理与信息检索过程中的一种简化模型。在这种模型中,文本(段落或文档)被视为忽略了语法甚至语序的无序词汇集合。文本中每个单词的出现都是独立的,不依赖于其他词是否出现。词袋模型对文档分类有着重要的作用,它提出了一种基于统计的文档描述思想,这种思想首先将训练集文档中的词汇进行训练,产生含有独一无二的单词的字典。然后使用字典对目标文档进行处理,统计字典中单词在文档中出现的频率,以此构建出能够描述整个文档的描述向量(注:其中,与主题相关的词一般在文档中出现频率较高,因此可以根据词的频率,对文档进行归类之后就可以在此向量基础上对文档进行检索或分类操作。词袋模型虽然简单,但是高效。在文本分类中,词袋模型与 SVM 分类器、朴素贝叶斯分类器结合能得到非常好的分类效果。

1.2 算法原理

       图像可以视为一种文档对象,图像中不同的局部区域或其特征可看做构成图像的词汇,其中相近的区域或其特征可以视作为一个词。这样,就能够把文本检索及分类的方法用到图像分类及检索中去。

       Bag-of-Features模型仿照文本检索领域的Bag-of-Words方法,把每幅图像描述为一个局部区域/关键点(Patches/Key Points)特征的无序集合。使用某种聚类算法(K-means)将局部特征进行聚类,每个聚类中心被看作是词典中的一个视觉词汇(Visual Word),相当于文本检索中的词,视觉词汇由聚类中心对应特征形成的码字(code word)来表示(可看当为一种特征量化过程,可理解为:码字表示聚类中心的特征矢量,如该类的平均矢量等)。所有视觉词汇形成一个视觉词典(Visual Vocabulary),对应一个码书(code book)(<

  • 4
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值