python tfidf特征变换_Python中的TfidfVectorizer参数解析

最新推荐文章于 2022-05-31 11:33:25 发布

一只有思想的猴子

最新推荐文章于 2022-05-31 11:33:25 发布

阅读量1.1k

点赞数

文章标签： python tfidf特征变换

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29543211/article/details/113493959

版权

vectorizer = CountVectorizer() #构建一个计算词频(TF)的玩意儿，当然这里面不足是可以做这些

transformer = TfidfTransformer() #构建一个计算TF-IDF的玩意儿

tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))

#vectorizer.fit_transform(corpus)将文本corpus输入，得到词频矩阵

#将这个矩阵作为输入，用transformer.fit_transform(词频矩阵)得到TF-IDF权重矩阵

TfidfTransformer + CountVectorizer = TfidfVectorizer

值得注意的是，CountVectorizer()和TfidfVectorizer()里面都有一个成员叫做vocabulary_(后面带一个下划线)

这个成员的意义是词典索引，对应的是TF-IDF权重矩阵的列，只不过一个是私有成员，一个是外部输入，原则上应该保持一致。

vectorizer = TfidfVectorizer(stop_words=stpwrdlst, sublinear_tf = True, max_df = 0.5)

关于参数：

input：string{‘filename‘, ‘file‘, ‘content‘}

如果是‘filename‘，序列作为参数传递给拟合器，预计为文件名列表，这需要读取原始内容进行分析

如果是‘file‘，序列项目必须有一个”read“的方法(类似文件的对象)，被调用作为获取内存中的字节

最低0.47元/天解锁文章

一只有思想的猴子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python tfidf特征变换_Python中的TfidfVectorizer参数解析

vectorizer = CountVectorizer() #构建一个计算词频(TF)的玩意儿，当然这里面不足是可以做这些transformer = TfidfTransformer() #构建一个计算TF-IDF的玩意儿tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))#vectorizer.fit_trans...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。