python统计提取数量_CountVectorizer方法对中文进行特征提取

countvectorizer方法进行特征提取

from sklearn.feature.extraction.text import countvectorizer

这个方法根据分词进行数量统计继续文本分类

文本特征提取

作用:对文本进行特征值化

sklearn.feature_extraction.text.countvectorizer(stop_words = [])

返回:词频矩阵

countvectorizer.fit_transform(x) x:文本或者包含文本字符串的可迭代对象

返回:sparse矩阵 在后面加上 .toarray() 可以转换为二维数组

countvectorizer.inverse_transform(x) x:array数组或者sparse矩阵

返回:转换之前数据格

countvectorizer.get_feature_names()

返回:单词列表,也可以说是返回特征名字

中文特征提取举例(手动分词)

from sklearn.feature_extraction.text import countvectorizer

#中文 需要分词,否则是以整句作为一个词。英文则不需要,因为英文单词本来就有空格

def chinese_text_count_demo():

data = ["我 爱 北京 天安门", "天安门 上 太阳 升"]

# 1、实例化一个转换器类(为什么叫转化器,因为是将 文本 转化为 数值)

transfer = countvectorizer()

# 2、调用fit_transform

d

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值