1. TF-IDF原理
TF-IDF = TF(词频)× IDF(逆文档频率)
2. 文本矩阵化,使用词袋模型,以TF-IDF特征值为权重
Python中的TfidfTransformer库
3. 互信息的原理
如果x跟y不相关,则p(x,y)=p(x)p(y)。二者相关性越大,则p(x,y)就相比于p(x)p(y)越大
TF-IDF = TF(词频)× IDF(逆文档频率)
Python中的TfidfTransformer库
如果x跟y不相关,则p(x,y)=p(x)p(y)。二者相关性越大,则p(x,y)就相比于p(x)p(y)越大