自然语言处理-jieba

最新推荐文章于 2024-05-07 00:20:46 发布

XXmaoxiaoXX

最新推荐文章于 2024-05-07 00:20:46 发布

阅读量537

点赞数

分类专栏：自然语言处理文章标签：自然语言处理

本文链接：https://blog.csdn.net/kiwangruikyo/article/details/81907962

版权

jieba中文处理

1.基本分词函数的用法

jieba.cut接收分词的三种输入参数：
1）需要分词的字符串
2）cut_all参数用来控制是否采用全模式，即从前往后切分，所有在词典中出现的词都会被切分出来；
精确模式：按最合理的方式进行切分；
3）HMM参数用来控制是否使用HMM模型
jieba.cut_for_search
1）需要分词的字符串
2）是否使用HMM模型
该方法适合用于搜索引擎创建倒排索引的分词，粒度比较细

#encoding=utf-8
import jieba

seg_list = jieba.cut("我在学习自然语言处理", cut_all=True)
print (seg_list)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我在学习自然语言处理", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他毕业于上海交通大学，在百度深度学习研究院进行研究")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在哈佛大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

运行结果：
Full Mode: 我/ 在/ 学习/ 自然/ 自然语言/ 语言/ 处理
Default Mode: 我/ 在/ 学习/ 自然语言/ 处理
他, 毕业, 于, 上海交通大学, ，, 在, 百度, 深度, 学习, 研究院, 进行, 研究
小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 哈佛, 大学, 哈佛大学, 深造

jieba.lcut以及jieba.lcut_for_search直接返回list

#encoding=utf-8
import jieba

result_lcut=jieba.lcut("小明硕士毕业于中国科学院计算机所，后在哈佛大学深造")
print (result_lcut)
result_lcut_for_search=jieba.lcut_for_search(

最低0.47元/天解锁文章

XXmaoxiaoXX

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
自然语言处理-jieba

jieba中文处理1.基本分词函数的用法jieba.cut接收分词的三种输入参数： 1）需要分词的字符串 2）cut_all参数用来控制是否采用全模式，即从前往后切分，所有在词典中出现的词都会被切分出来；精确模式：按最合理的方式进行切分； 3）HMM参数用来控制是否使用HMM模型 jieba.cut_for_search 1）需要分词的字符串 2）是否使用HM...
复制链接

扫一扫