jieba分词

最新推荐文章于 2023-06-25 09:53:03 发布

沐染懒懒

最新推荐文章于 2023-06-25 09:53:03 发布

阅读量230

点赞数

本文链接：https://blog.csdn.net/qq_34205793/article/details/85794024

版权

在这里插入图片描述报错的原因是：跟当前文件名冲突，修改一下文件名就可以了。
修改后import还是报错，改正办法是在anaconda中安装。

主要功能
一、分词

jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型
jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8
在这里插入图片描述输出:

 【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

 【精确模式】: 我/ 来到/ 北京/ 清华大学

 【新词识别】：他, 来到, 了, 网易, 杭研, 大厦    (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

 【搜索引擎模式】： 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

打开源码可以看到HMM参数默认是True。
在这里插入图片描述

jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

二、添加自定义词典
1、载入词典
开发者可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率
用法： jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径
词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。
词频省略时使用自动计算的能保证分出该词的词频。
python中字典的使用：
dic.get(k)
获取字典中指定键的值，如果k不属于字典中的键，则返回None。注意：相当于dic[k],但是dic[k]如果k不属于字典中的键，则报出异常
dit.get(k,d)方法，如果k属于字典中的键，则返回对应的值，否则，将往字典中插入键值

Python sorted() 函数：http://www.runoob.com/python/python-func-sorted.html
Python标准库：内置函数open：https://blog.csdn.net/caimouse/article/details/43370101
python中的glob应用：https://blog.csdn.net/u010472607/article/details/76857493/

jieba分词文档：https://github.com/fxsjy/jieba

沐染懒懒

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
jieba分词

报错的原因是：跟当前文件名冲突，修改一下文件名就可以了。修改后import还是报错，改正办法是在anaconda中安装。主要功能一、分词jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模...
复制链接

扫一扫