tf计算矩阵维度_TF-IDF 的一点探究

最新推荐文章于 2024-04-16 10:50:22 发布

Forest Hu

最新推荐文章于 2024-04-16 10:50:22 发布

阅读量1.1k

点赞数 3

文章标签： tf计算矩阵维度

本文链接：https://blog.csdn.net/weixin_31569671/article/details/112317483

版权

本文详细探讨了TF-IDF的概念，包括Document-term矩阵、Count、TF、DF、IDF和TF-IDF之间的区别。介绍了TF-IDF如何平衡词频与文档频率，并在实际训练中应注意的问题，如数据预处理、归一化和词汇量的学习。同时，讨论了在机器学习训练中，应当如何正确使用TF-IDF，以确保模型的泛化能力。

摘要由CSDN通过智能技术生成

刚开始学TF-IDF的时候，总是被各种分解概念搞得很糊涂。也对其内里是怎么计算的一知半解。学知识最怕一知半解，所以今日就来一一拆解，弄清楚究竟是怎么回事。

文中的代码notebook:

https://github.com/haomingsama/NLP/blob/master/spam_detector/sms_spam.ipynbgithub.com

什么是Document-term matrix

要了解IF-IDF之前，我们要先明白什么是Document-term matrix. 他就长下面这样。

这个matrix的每一行，都代表着一个数据，这个数据可以是评论，可以是邮件，可以是任何句子。

每一列，代表一个词，所以如果数据量很大，词很多，那么列也会有很多。

比如分析很多邮件数据，每一行代表一个邮件，列则为邮件里的单词

那么每一个entry代表什么呢？这个就要取决于这个矩阵是关于Count的，TF的还是 TF-IDF的

Count, TF, DF, IDF, TF-IDF 的区别

Count 意思是数数。document-term 矩阵里面的每一个entry（i,j)，就表示在这封在第i封邮件中，j号词出现了几次。一行数据的所有列加总，等于这封邮件的总字数。比如下图

拿邮件1举例，apply在这封邮件里出现了5次，money出现了1次，loan没有出现

在sklearn中，如果要将数据进行count处理，应该使用CountVectorizer，将拿到的raw text data向量化。比如

from sklearn.feature_extraction.text import CountVectorizer
Count_Vectorizer = CountVectorizer(decode_error = 'ignore')
X = Count_Vectorizer.fit_transform(data['text']) # X 已经是经过向量化的矩阵了
X.todense()