sklearn-CountVectorizer

最新推荐文章于 2023-12-01 09:25:02 发布

bymaymay

最新推荐文章于 2023-12-01 09:25:02 发布

阅读量379

点赞数

分类专栏： sklearn python 机器学习文章标签： sklearn machine learning

python 同时被 3 个专栏收录

21 篇文章 1 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

0 篇文章 0 订阅

订阅专栏

CountVectorizer会将文本中的词语转换为词频矩阵，它通过fit_transform函数计算各个词语出现的次数。

from sklearn.feature_extraction.text import CountVectorizer

texts=["dog cat fish","dog cat cat","fish bird", 'bird'] # “dog cat fish” 为输入列表元素,即代表一个文章的字符串
cv = CountVectorizer()#创建词袋数据结构
cv_fit=cv.fit_transform(texts)
#上述代码等价于下面两行
#cv.fit(texts)
#cv_fit=cv.transform(texts)

print(cv.get_feature_names())    #['bird', 'cat', 'dog', 'fish'] 列表形式呈现文章生成的词典

print(cv.vocabulary_	)              # {‘dog’:2,'cat':1,'fish':3,'bird':0} 字典形式呈现，key：词，value:词频

print(cv_fit)
# （0,3） 1   第0个列表元素，**词典中索引为3的元素**， 词频
#（0,1）1
#（0,2）1
#（1,1）2
#（1,2）1
#（2,0）1
#（2,3）1
#（3,0）1

print(cv_fit.toarray()) #.toarray() 是将结果转化为稀疏矩阵矩阵的表示方式；
#[[0 1 1 1]
# [0 2 1 0]
# [1 0 0 1]
# [1 0 0 0]]

print(cv_fit.toarray().sum(axis=0))  #每个词在所有文档中的词频
#[2 3 2 2]

原文详细版链接

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

bymaymay CSDN认证博客专家 CSDN认证企业博客

码龄7年

34: 原创

10万+: 周排名

188万+: 总排名

22万+: 访问

: 等级

2071: 积分

34: 粉丝

164: 获赞

13: 评论

468: 收藏

私信

关注

热门文章

分类专栏

强化学习 4篇
机器学习 7篇
python 21篇
综合工具类 15篇
算法 2篇
tensorflow 1篇
sklearn
pandas 1篇

最新评论

信息熵、联合熵、条件熵、互信息
高性能服务器: 为了更好的理解，需要了解的概率必备知识有：大写字母X表示随机变量，小写字母x表示随机变量X的某个具体的取值； P(X)表示随机变量X的概率分布，P(X,Y)表示随机变量X、Y的联合概率分布，P(Y|X)表示已知随机变量X的情况下随机变量Y的条件概率分布； p(X = x)表示随机变量X取某个具体值的概率，简记为p(x)； p(X = x, Y = y) 表示联合概率，简记为p(x,y)，p(Y = y|X = x)表示条件概率，简记为p(y|x)，且有：p(x,y) = p(x) * p(y|x)。
Mac连接服务器黑屏时断开
weixin_39430505: 同学，mac熄屏后你连的服务器会断吗
csr_matrix参数解析
kyonqi: 我超，简明扼要，就爱你这种说话干脆利索的
csr_matrix参数解析
Jiaqi Lee: 简明扼要
信息熵、联合熵、条件熵、互信息
菜工啊潜: 为啥没有单位。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。