NLP修炼之旅（Day4）

我就叫小灰灰

于 2019-04-13 21:18:49 发布

阅读量110

点赞数

文章标签： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43314778/article/details/89288963

版权

TF-IDF

TF-IDF（Term Frequency -Inverse Document Frequency）是有TF和IDF两部分组成，TF指的词频，IDF指的是逆文本频率，用来反映一个词在文本中的出现频率，最后TF-IDF是有两部分乘积表示；

文本矩阵化

文本矩阵化，使用词袋模型，以TF-IDF特征值为权重，可以考虑使用Python中的TfidTransformer库
在这里插入图片描述

互信息

互信息是衡量两个随机变量的相关性，也就是一个随机变量中包含的关于另一个随机变量的信息量，所谓的随机变量，即随机试验结果的量的表示，可以简单理解为按照一个概率分布进行取值的变量，比如随机抽查的一个人的身高就是一个随机变量。可以看出，互信息其实就是对X和Y的所有可能的取值情况的点互信息PMI的加权和。
$Y)=\sum_{x \in X} \sum_{y \in Y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}$

使用第二步生成的特征矩阵，利用互信息进行特征筛选

from sklearn import metrics as mr
mr.mutual_info_score(tfidf,x)

我就叫小灰灰

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP修炼之旅（Day4）

TF-IDFTF-IDF（Term Frequency -Inverse Document Frequency）是有TF和IDF两部分组成，TF指的词频，IDF指的是逆文本频率，用来反映一个词在文本中的出现频率，最后TF-IDF是有两部分乘积表示；文本矩阵化文本矩阵化，使用词袋模型，以TF-IDF特征值为权重，可以考虑使用Python中的TfidTransformer库互信息互信息是衡...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。