python中文分词库jieba的使用

最新推荐文章于 2024-04-06 12:15:00 发布

__万波__

最新推荐文章于 2024-04-06 12:15:00 发布

阅读量612

点赞数

分类专栏：人工智能 pyhon 文章标签： python 机器学习

本文链接：https://blog.csdn.net/u010571709/article/details/118141019

版权

pyhon 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

人工智能

9 篇文章 0 订阅

订阅专栏

python中的中文分词库jieba非常好用
首先使用pip安装扩展库: pip install jieba
如果速度太慢, 可以换清华园源安装: pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba
使用示例:

# 安装扩展包后导入jieba库
import jieba
# 导入文本特征提取工具
from sklearn.feature_extraction.text import CountVectorizer

# 对中文进行分词
data =  "我们是祖国的花朵, 我们是红领巾"
data = jieba.lcut(data)
print(data) # 打印分词结果

# 使用分好词的文本生成one-hot编码的数据, 利于机器提取文本特征
cv = CountVectorizer()
data = cv.fit_transform([" ".join(data)])

print(cv.get_feature_names()) # 打印征提取结果
print(data.toarray()) # one-hot编码数组格式

运行结果:

分词结果: ['我们', '是', '祖国', '的', '花朵', ',', ' ', '我们', '是', '红领巾']
特征提取结果: ['我们', '祖国', '红领巾', '花朵']
one-hot编码转数组格式: [[2 1 1 1]]

__万波__

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
python中文分词库jieba的使用

python中的中文分词库jieba非常好用首先使用pip安装扩展库: pip install jieba如果速度太慢, 可以换清华园源安装: pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba使用示例:# 安装扩展包后导入jieba库import jieba# 导入文本特征提取工具from sklearn.feature_extraction.text import CountVectorizer# 对中文进行分词
复制链接

扫一扫