BOW 原理及代码解析

最新推荐文章于 2024-02-05 17:13:33 发布

曼陀罗彼岸花

最新推荐文章于 2024-02-05 17:13:33 发布

阅读量2.7w

点赞数 49

分类专栏：图像处理机器视觉

本文链接：https://blog.csdn.net/tiandijun/article/details/51143765

版权

Bag of Words(BOW)模型在信息检索中忽略单词顺序，将文档表示为词频向量。本文介绍了BOW模型的原理，通过SIFT算法和K-Means聚类构造图像的BOW表示，并探讨了K-Means的效率优化。代码示例展示了使用BOW和不同核函数的SVM分类器在不同数据集上的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

最初的Bag of words，也叫做“词袋”，在信息检索中，Bag of words model假定对于一个文本，忽略其词序和语法，句法，将其仅仅看做是一个词集合，或者说是词的一个组合，文本中每个词的出现都是独立的，不依赖于其他词是否出现，或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。

Bag-of-words模型是信息检索领域常用的文档表示方法。在信息检索中，BOW模型假定对于一个文档，忽略它的单词顺序和语法、句法等要素，将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立的，不依赖于其它单词是否出现。也就是说，文档中任意一个位置出现的任何单词，都不受该文档语意影响而独立选择的。例如有如下两个文档：

1：Bob likes to play basketball, Jim likes too.

2：Bob also likes to play football games.

基于这两个文本文档，构造一个词典：

Dictionary = {1:”Bob”, 2. “like”, 3. “to”, 4. “play”, 5. “basketball”, 6. “also”, 7. “football”, 8. “games”, 9. “Jim”, 10. “too”}。