简简单单的说明向量空间模型（VSM）

最新推荐文章于 2019-01-16 09:26:24 发布

cuidongdong1234

最新推荐文章于 2019-01-16 09:26:24 发布

阅读量1k

点赞数

分类专栏：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/donggua6/article/details/40793691

版权

算法专栏收录该内容

17 篇文章 0 订阅

订阅专栏

向量空间模型（VSM）即(Vector Space Model)，其实此模型更加适用于比较文档直接的相关性。但是本文还是基于在全文检索的基础上来说。

在全文检索中如何根据搜素关键字搜索之后的结果进行排序，即对搜素结果的文档进行排序。找出词(Term)对文档的重要性的过程称为计算词的权重(Term weight)的过程。计算词的权重(term weight)有两个参数，第一个是词(Term)，第二个是文档(Document)。而关于这两个参数又有两个因素：

1，词频，即这个词在文档中出现的频率，tf，tf越大说明越重要。

2，多少文档中包含这个词，df，df越大说明越不重要。

VSM的过程为：

1，把索引的每一篇文档中的每一个词进行词权重（term weight）的计算，这个词权重的计算量是很大的，而且当有新文档加入时，则必须重新计算词的权值；

2，对查询的term序列计算词权重的计算：

2.1词频（tf）根据查询词的数量进行计算；

2.2文档词频（df）根据索引中记录的包含此个term的总的数量，（其实这也就可以理解lucene的索引中包含了那么的数字，需要那么复杂的索引了）；

3，根据查询词的尾数建立查询词维数的空间向量（vsm），由于文档中包含的词的数目远大于查询词的维数，因此只能按查询词的维数建立空间向量（这个地方好像不太科学）；

4，计算各个相关文档的词权重向量和查询词权重向量直接的余弦夹角，夹角越小的的（计算的结果值越大的）那么说明相关程度越高。

好像写的太简单了

参考：

1，http://www.cnblogs.com/forfuture1978/archive/2010/02/06/1664916.html

2，lucene原理与代码分析

cuidongdong1234

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

cuidongdong1234 CSDN认证博客专家 CSDN认证企业博客

码龄14年

65: 原创

20万+: 周排名

101万+: 总排名

13万+: 访问

: 等级

1915: 积分

4: 粉丝

4: 获赞

10: 评论

11: 收藏

私信

关注

热门文章

分类专栏

综合 16篇
缓存 3篇
其他 5篇
jvm 1篇
内存 5篇
数据库 12篇
算法 17篇
redis 4篇
线程 8篇
分布式 14篇
akka 1篇

最新评论

cassandra的四种key
gegeduidui: 666
用自己的话理解理解zookeeper（自认为纠正了网上的一些说法）
不想沉默中灭亡: 所以你说了一堆，只是想说怎么理解zookeeper的高一致性。举狭义相对论什么的，有点b格的感觉，没什么卖点
kafka consumer group总结
骑驴小子: 这个代码写的乱啊。。
kafka consumer group总结
骑驴小子回复 Vanquishing: 对的，消费组只跟消费者有关系。亲历实验得知：消费组的概念是，同一个消费组的消费者，一个消费了这条消息，另一个就不消费了。同一个消费组的消费者轮着来消费同一个topic的消息。
kafka consumer group总结
丶小柒灬回复 Vanquishing: 创建消费者，就代表创建一个消费者组，消费者组内多个线程为多个消费者实例，共享一个唯一的group id。消费者组内所有实例消费topic的时候通过rebalance进行分工，即各自消费各自的分区。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。