向量空间模型

最新推荐文章于 2021-02-15 14:12:44 发布

aeon521730041

最新推荐文章于 2021-02-15 14:12:44 发布

阅读量200

点赞数

原文链接：http://www.cnblogs.com/penny/articles/2145892.html

版权

向量空间模型(VSM：Vector Space Model)由Salton等人于20世纪70年代提出，并成功地应用于著名的SMART文本检索系统。

　　VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。

　　M个无序特征项ti ,词根/词/短语/其他每个文档dj可以用特征项向量来表示(a1j,a2j,…,aMj)权重计算，N个训练文档AM*N= (aij) 文档相似度比较1)Cosine计算,余弦计算的好处是,正好是一个介于0到1的数,如果向量一致就是1,如果正交就是0,符合相似度百分比的特性,余弦的计算方法为,向量内积/各个向量的模的乘积.2)内积计算,直接计算内积,计算强度低,但是误差大.

　　向量空间模型 (或 词组向量模型) 是一个应用于信息过滤, 信息撷取, 索引以及评估相关性的代数模型。 SMART是首个使用这个模型的信息检索系统。

　　文件(语料)被视为索引词(关键词)形成的多次元向量空间，索引词的集合通常为文件中至少出现过一次的词组。

　　搜寻时，输入的检索词也被转换成类似于文件的向量，这个模型假设，文件和搜寻词的相关程度，可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。

　　实际上，计算夹角向量之间的余弦比直接计算夹角容易：

　　余弦为零表示检索词向量垂直于文件向量，即没有符合，也就是说该文件不含此检索词。

　　通过上述的向量空间模型,文本数据就转换成了计算机可以处理的结构化数据,两个文档之间的相似性问题转变成了两个向量之间的相似性问题。

http://baike.baidu.com/view/963517.htm

转载于:https://www.cnblogs.com/penny/articles/2145892.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
向量空间模型

向量空间模型(VSM：Vector Space Model)由Salton等人于20世纪70年代提出，并成功地应用于著名的SMART文本检索系统。　　VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。　...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。