二级python基础之jieba库分词

最新推荐文章于 2024-06-19 14:01:19 发布

佟湘玉滴玉

最新推荐文章于 2024-06-19 14:01:19 发布

阅读量1.1k

点赞数

分类专栏： Python学习笔记文章标签： python 分词 jieba 二级

本文链接：https://blog.csdn.net/qq_36108664/article/details/107973569

版权

15 篇文章 4 订阅

订阅专栏

jieba是优秀的中文分词第三方库

(cmd命令行) pip install jieba

jieba分词依靠中文词库

精确模式、全模式、搜索引擎模式

精确模式，返回一个列表类型的分词结果

import jieba
s = jieba.lcut("中国是一个伟大的国家")
print(s)

分词结果

['中国', '是', '一个', '伟大', '的', '国家']

全模式，返回一个列表类型的分词结果，存在冗余

import jieba
s = jieba.lcut("中国是一个伟大的国家",cut_all=True)
print(s)

分词结果

['中国', '国是', '一个', '伟大', '的', '国家']

搜索引擎模式，返回一个列表类型的分词结果，存在冗余

import jieba
s = jieba.lcut_for_search("中华人民共和国是伟大的")
print(s)

分词结果

['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']

向分词词典增加新词w，保证在分词操作中w不会被分开

import jieba
s = jieba.lcut("中国是一个伟大的国家")
print(s)
jieba.add_word("伟大的国家")
s = jieba.lcut("中国是一个伟大的国家")
print(s)

分词结果

['中国', '是', '一个', '伟大', '的', '国家']
['中国', '是', '一个', '伟大的国家']

关注

专栏目录