jieba的功能用法

最新推荐文章于 2024-08-14 16:13:06 发布

steven~~~

最新推荐文章于 2024-08-14 16:13:06 发布

阅读量722

点赞数

文章标签：搜索引擎

本文链接：https://blog.csdn.net/qq_37837061/article/details/122632779

版权

cut方法

jieba.cut(s,cut_all = True)

其中第一个参数表示待切割的字符串。第二个参数表示是否采用全模式

可以看到，全模式下可以划分出所有的分词，和精简模式不一样

从这一段代码可以看到，若第二个参数不传参，默认是精简模式

cut_for_search方法是一种非常细粒度的分词方法，其多用于搜索引擎关键词搜索

jieba.cut_for_search(s)

s是需要被分词的字符串

分词之后，需要输出高频词汇，下面这段代码输出高频前十的词汇

可以看到，上面出现了像"，"这样无实际意义的字符，解决方法如下

有些时候许多专有名词（如人名、地名（欧阳建国））不可被划分，那么用户就需要自己定义词典

jieba.load_userdict(file_name)

file_name中存储用户自定义词典，词典中每个词占一行，每一行分为词语、词频（可省略）、词性（可省略）
其中词频的存在意义在于提高词语的识别率，词频越高越容易被识别
file_name必须是utf-8编码的

比如下面一段代码显示未使用用户自定义词典的输出结果

此时我们创建一个用户词典user_dict.txt：

导入用户词典之后产生如下结果：

关注