tf计算矩阵维度_TF-IDF 的一点探究

本文详细探讨了TF-IDF的概念,包括Document-term矩阵、Count、TF、DF、IDF和TF-IDF之间的区别。介绍了TF-IDF如何平衡词频与文档频率,并在实际训练中应注意的问题,如数据预处理、归一化和词汇量的学习。同时,讨论了在机器学习训练中,应当如何正确使用TF-IDF,以确保模型的泛化能力。
摘要由CSDN通过智能技术生成

7b1ed5625ac36b6b54344c415ca2a682.png

刚开始学TF-IDF的时候,总是被各种分解概念搞得很糊涂。也对其内里是怎么计算的一知半解。学知识最怕一知半解,所以今日就来一一拆解,弄清楚究竟是怎么回事。

文中的代码notebook:

https://github.com/haomingsama/NLP/blob/master/spam_detector/sms_spam.ipynb​github.com

什么是Document-term matrix

要了解IF-IDF之前,我们要先明白什么是Document-term matrix. 他就长下面这样。

20eba18b7b586e114001c6ec93fb24da.png

这个matrix的每一行,都代表着一个数据,这个数据可以是评论,可以是邮件,可以是任何句子。

每一列,代表一个词,所以如果数据量很大,词很多,那么列也会有很多。

0c36647077068dba8f841181602fcb1f.png
比如分析很多邮件数据,每一行代表一个邮件,列则为邮件里的单词

那么每一个entry代表什么呢?这个就要取决于这个矩阵是关于Count的,TF的还是 TF-IDF的

Count, TF, DF, IDF, TF-IDF 的区别

Count 意思是数数。document-term 矩阵里面的每一个entry(i,j),就表示在这封在第i封邮件中,j号词出现了几次。一行数据的所有列加总,等于这封邮件的总字数。比如下图

ac82665a47cc2109be81c919c610bfac.png
拿邮件1举例,apply在这封邮件里出现了5次,money出现了1次,loan没有出现

在sklearn中,如果要将数据进行count处理,应该使用CountVectorizer,将拿到的raw text data向量化。比如

d105482120a5c5a89eb470a8052ce4c3.png
from sklearn.feature_extraction.text import CountVectorizer
Count_Vectorizer = CountVectorizer(decode_error = 'ignore')
X = Count_Vectorizer.fit_transform(data['text']) # X 已经是经过向量化的矩阵了
X.todense() 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值