用TFIDF给特征词赋权值

最新推荐文章于 2023-03-16 22:32:55 发布

BlockheadLS

最新推荐文章于 2023-03-16 22:32:55 发布

阅读量4.2k

点赞数

分类专栏：文本分类文章标签：文本分类 TFIDF

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/blockheadls/article/details/50019613

版权

TFIDF是一种用于信息检索与文本挖掘的常用技术，它通过结合词频（TF）和逆文档频率（IDF）来评估单词在文档中的重要性。在文本分类中，TFIDF能赋予具有区分能力的词较高权重。计算TFIDF时，TF反映了词在文档内的频繁程度，而IDF则考虑了词在整个文档集合中的稀有程度。实验表明，基于原始文章总词数计算TFIDF可以获得更高的分类准确率。

摘要由CSDN通过智能技术生成

0 背景

在上一篇的用CHI检验的文章中我们已经获得了特征词，这些特征词在某一篇文章中出现的频率是不一样的，也可以说词与词的重要性是不一样的。为了标示特征词语的重要程度，就必须赋权重。在本篇文章中，我们使用的方法是TFIDF。

1 VSM向量空间模型

哎？不是讲TFIDF吗，怎么会有VSM向量空间模型呢。是这样，在经过CHI提取到特征词后，然后再用TFIDF给特征词赋权值以后，这样就会组成一个向量：（term1，权重值；term2，权重值；........；termn，权重值），n为特征词的数量。这样的向量就是VSM。每篇文章都可以表示为这样的向量。

比如说吧，对所有的训练样本经过CHI检验后，提取到的特征词有（“篮球”，“范冰冰”，“航空母舰”，“NBA”，“股票”，“综艺”，“娱乐圈”）这些词，当然真实的特征词肯定是成千上万的，在这里只是简单地举一个例子。当有一篇

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。