VSM模型与TF-IDF权重

最新推荐文章于 2025-08-19 19:08:42 发布

GeekStuff

最新推荐文章于 2025-08-19 19:08:42 发布

阅读量8.9k

点赞数

CC 4.0 BY-SA版权

分类专栏： Algorithm MLDM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aspirinvagrant/article/details/41250887

向量空间模型（VSM）将文本转换为数学向量，便于计算相似性和排序。TF-IDF是一种衡量词重要性的方法，结合词频（TF）和逆文档频率（IDF）。TF-IDF有助于识别区分文档的关键词汇，常用于信息检索和文本挖掘。

VSM模型

向量空间模型(VSM，Vector Space Model)由Gerard Salton和McGill等在1969年提出。该模型将文本内容转换为易于数学处理的向量形式，并表示为多维空间中的一个点，把对文本内容的处理简化为向量空间中向量运算，使问题的复杂度大为降低使得各种相似计算和排序成为可能。

在向量空间模型中，文本空间被看作是由一组正交词条矢量所组成的矢量空问，每篇文本 d 表示为其中的一个范化矢量 V(d)=(t₁, w₁(d) ,…, t_n, w_n(d))，其中t_i为词条项，w_i(d) 表示词条t_i在文本d 中的权值，用于显示向量 t_i在文本 d 中的重要程度。可以将文本 d 中出现的所有词条作为 t_i，也可以要求 t_i是 d 中出现的所有短语，从而提高内容特征表示的准确性。w_i(d) 一般被定义为词条t_i在文本d 中的出现频率 tf_i(d) 的函数，w_i=f(tf_i(d))，常用的 f 函数有布尔函数、平方根函数、对数函数、T

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。