python中的中文分词库jieba
非常好用
首先使用pip安装扩展库: pip install jieba
如果速度太慢, 可以换清华园源安装: pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba
使用示例:
# 安装扩展包后导入jieba库
import jieba
# 导入文本特征提取工具
from sklearn.feature_extraction.text import CountVectorizer
# 对中文进行分词
data = "我们是祖国的花朵, 我们是红领巾"
data = jieba.lcut(data)
print(data) # 打印分词结果
# 使用分好词的文本生成one-hot编码的数据, 利于机器提取文本特征
cv = CountVectorizer()
data = cv.fit_transform([" ".join(data)])
print(cv.get_feature_names()) # 打印征提取结果
print(data.toarray()) # one-hot编码数组格式
运行结果:
分词结果: ['我们', '是', '祖国', '的', '花朵', ',', ' ', '我们', '是', '红领巾']
特征提取结果: ['我们', '祖国', '红领巾', '花朵']
one-hot编码转数组格式: [[2 1 1 1]]