sklearn.CountVectorizer

最新推荐文章于 2024-11-05 15:32:33 发布

joker-G

最新推荐文章于 2024-11-05 15:32:33 发布

阅读量110

点赞数

文章标签： sklearn python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40415753/article/details/129704532

版权

该文展示了如何使用scikit-learn的CountVectorizer对文本数据进行预处理。通过对[lloveyou,dog,cat,ilikebaskerball,ilikeapple]等词的处理，展示了如何创建词频矩阵并提取关键词。同时，显示了vocabulary_属性和特征名称，以及频次统计。

摘要由CSDN通过智能技术生成

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
cv = CountVectorizer()

data = ['l love you', 'dog', 'cat', 'i like baskerball', 'i like apple']
cv_fit = cv.fit_transform(data)
print(cv.transform(['l love YOU']))
print(cv.vocabulary_)

# 获取语料频次
print(cv.get_feature_names())
print(cv_fit.toarray())
print(cv_fit.toarray().sum(axis=0))

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

joker-G CSDN认证博客专家 CSDN认证企业博客

码龄7年

50: 原创

11万+: 周排名

126万+: 总排名

3万+: 访问

: 等级

658: 积分

7: 粉丝

24: 获赞

14: 评论

101: 收藏

私信

关注

分类专栏

大数据 6篇
机器学习 14篇
计算机视觉 12篇
pytorch 2篇
coding 17篇

最新评论

tensorRT 与 torchserve-GPU性能对比
AI改变视界: 时间打印出来不就行了
spark部署TF、 Torch深度学习模型
渔人不是鱼: 你好，我想问下pyspark分布式总是显示无法序列化问题，.h5文件是否可以进行分布式
tensorRT 与 torchserve-GPU性能对比
苏532: 怎么看耗时的呜呜呜
tensorRT 与 torchserve-GPU性能对比
wind_700: 你好，你的基准测试用的是ab吗，能看一下怎么用吗
tensorRT 与 torchserve-GPU性能对比
wind_700: 你好，我能否看看你的代码

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。