python结巴分词

最新推荐文章于 2021-10-14 21:19:41 发布

Jack001011

最新推荐文章于 2021-10-14 21:19:41 发布

阅读量287

点赞数

分类专栏：计算机 python 文章标签： python

本文链接：https://blog.csdn.net/Jack001011/article/details/104049893

版权

9 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

结巴分词总结

你好！这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。

jieba.cut：该方法接受三个输入参数：
　　参数1：需要分词的字符串;
　　参数2：cut_all参数用来控制是否采用全模式，默认为精确模式；
cut_all=True 全模式
cut_all=false 精确（默认）模式
　　参数3：HMM参数用来控制是否适用HMM模型
返回的结构是可以得到的generator(生成器)：print(list(seq_list))
jieba.cut_for_search：该方法接受两个参数：
　　参数1：需要分词的字符串；
　　参数2：是否使用HMM模型，
该方法适用于搜索引擎构建倒排索引的分词，粒度比较细。
返回的结构都是可以得到的generator(生成器)：print(list(seq_list))
jieb.lcut 以及 jieba.lcut_for_search
直接返回list：print(seq_list)

两种方式添加实体：

** 添加词**
jieba.add_word(‘古月哥欠’)
jieba.add_word(‘贝戈马户’)
#删除词
jieba.del_word(‘自定义词’)
添加词典：jieba.load_userdict(file_name)
file_name 为文件类对象或自定义词典的路径。词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。
file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。