Spark MLlib 特征工程系列—特征提取 TF-IDF

不二人生

于 2024-08-15 15:53:33 发布

阅读量1.1k

点赞数 16

分类专栏： Spark 实战文章标签： spark-ml tf-idf spark 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/king14bhhb/article/details/141224396

版权

Spark 实战专栏收录该内容

10 篇文章 0 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

Spark MLlib 特征工程系列—特征提取 TF-IDF

TF-IDF是文本挖掘中广泛使用的一种特征向量化方法，用于反映术语对语料库中文档的重要性。

Term Frequency (TF)

TF，即词频，是衡量一个词在文档中出现频率的指标。假设某词在文档中出现了( n )次，而文档总共包含( N )个词，则该词的TF定义为：

Inverse Document Frequency (IDF)

IDF，即逆文档频率，是对词普遍性的度量，反映了词的稀有程度。IDF越高，说明词越独特，对于区分文档具有更大的价值。IDF的计算公式为：

如果我们仅使用词频来衡量重要性，很容易过分强调那些出现频率很高但几乎不包含文档信息的术语，例如“a”、“the”和“of”。如果某个术语在整个语料库中出现的频率很高，则意味着它不包含有关特定文档的特殊信息。逆

由于使用了对数，如果某个术语出现在所有文档中，则其 IDF 值变为 0。请注意，应用了平滑项以避免语料库之外的术语除以零。通过取对数，可以避免数值过大的问题，同时保证了IDF的单调递减特性。

了解本专栏

超级会员免费看

关注

16
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark MLlib 特征工程系列—特征提取 TF-IDF

TF-IDF 是文本分类、聚类、信息检索等任务中的一种常见特征提取方法。通过降低常见词汇的权重，TF-IDF 能够更有效地捕捉那些对文档区分度更高的词汇，从而提高模型的效果。IDF 是 TF-IDF 中的重要组成部分，用于调整词频，以减少常见词对文本分析任务的影响。在 Spark 中，可以结合 HashingTF 或 CountVectorizer 来计算 TF-IDF 特征，进而用于各种机器学习任务。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

不二人生 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。