文本特征提取之TFIDF

最新推荐文章于 2024-05-23 17:51:39 发布

走在分布式的路上

最新推荐文章于 2024-05-23 17:51:39 发布

阅读量1.1k

点赞数

分类专栏：机器学习 python 文章标签： tf idf tf-idf

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43170863/article/details/100659552

版权

机器学习同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

TF-IDF

是一种加权技术。采用一种统计方法，根据字词在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。
主要思想：如果某个词或短语在一篇文章中出现的概率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。
作用：用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度
优点：能过滤掉一些常见的却无关紧要的词语，同时保留影响整个文本的重要词语。
公式如下：

tfidfi,j表示词频 tfi,j 和倒文本词频idfi,j的乘积。TF-IDF值越大，表示该特征词对这个文本的重要性越大。

TF

TF（Term Frequency）：表示某个关键词在整篇文章中出现的频率。
计算公式：
其中，分子为特征词 t 在文本 dj 中出现的次数，分母则是文本dj中所有特征词的个数。计算的结果即为某个特征词的词频。

IDF

IDF（Invers Document Frequency）：表示计算倒文本频率。（文本频率是指某个关键词在整个语料所有文章中出现的次数。倒文本频率顾名思义，它是文本频率的倒数，主要用于降低所有文档中一些常见却对文档影响不大的词语的作用。）
计算公式：
|D| 表示语料中文本的总数，|Dti| 表示文本中包含特征词ti的数量。为防止该词语在语料库中不存在，即分母为0，使用 1+|Dti| 作为分母

sklearn工具包下的tfidf

sklearn.feature_extraction.text.TfidfVectorizer

走在分布式的路上

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。