from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
cv = CountVectorizer()
data = ['l love you', 'dog', 'cat', 'i like baskerball', 'i like apple']
cv_fit = cv.fit_transform(data)
print(cv.transform(['l love YOU']))
print(cv.vocabulary_)
# 获取语料频次
print(cv.get_feature_names())
print(cv_fit.toarray())
print(cv_fit.toarray().sum(axis=0))
sklearn.CountVectorizer
最新推荐文章于 2024-11-05 15:32:33 发布
该文展示了如何使用scikit-learn的CountVectorizer对文本数据进行预处理。通过对[lloveyou,dog,cat,ilikebaskerball,ilikeapple]等词的处理,展示了如何创建词频矩阵并提取关键词。同时,显示了vocabulary_属性和特征名称,以及频次统计。
摘要由CSDN通过智能技术生成