结巴分词总结
你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。
常用方法
- jieba.cut:该方法接受三个输入参数:
参数1:需要分词的字符串;
参数2:cut_all参数用来控制是否采用全模式,默认为精确模式;
cut_all=True 全模式
cut_all=false 精确(默认)模式
参数3:HMM参数用来控制是否适用HMM模型
返回的结构是可以得到的generator(生成器):print(list(seq_list)) - jieba.cut_for_search:该方法接受两个参数:
参数1:需要分词的字符串;
参数2:是否使用HMM模型,
该方法适用于搜索引擎构建倒排索引的分词,粒度比较细。
返回的结构都是可以得到的generator(生成器):print(list(seq_list)) - jieb.lcut 以及 jieba.lcut_for_search
直接返回list:print(seq_list)
添加词
两种方式添加实体:
- ** 添加词**
jieba.add_word(‘古月哥欠’)
jieba.add_word(‘贝戈马户’)
#删除词
jieba.del_word(‘自定义词’) - 添加词典:jieba.load_userdict(file_name)
file_name 为文件类对象或自定义词典的路径。词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。
file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。
删除词
- 删除词
jieba.del_word(‘自定义词’)
词性标注
- 导入词性标注的包
import jieba.posseg as pseg
- 词性标注
result = pseg.cut(test_sent)