countvectorizer方法进行特征提取
from sklearn.feature.extraction.text import countvectorizer
这个方法根据分词进行数量统计继续文本分类
文本特征提取
作用:对文本进行特征值化
sklearn.feature_extraction.text.countvectorizer(stop_words = [])
返回:词频矩阵
countvectorizer.fit_transform(x) x:文本或者包含文本字符串的可迭代对象
返回:sparse矩阵 在后面加上 .toarray() 可以转换为二维数组
countvectorizer.inverse_transform(x) x:array数组或者sparse矩阵
返回:转换之前数据格
countvectorizer.get_feature_names()
返回:单词列表,也可以说是返回特征名字
中文特征提取举例(手动分词)
from sklearn.feature_extraction.text import countvectorizer
#中文 需要分词,否则是以整句作为一个词。英文则不需要,因为英文单词本来就有空格
def chinese_text_count_demo():
data = ["我 爱 北京 天安门", "天安门 上 太阳 升"]
# 1、实例化一个转换器类(为什么叫转化器,因为是将 文本 转化为 数值)
transfer = countvectorizer()
# 2、调用fit_transform
d