【Python】jieba分词扩展包讲解

最新推荐文章于 2023-10-05 23:27:23 发布

Asher117

最新推荐文章于 2023-10-05 23:27:23 发布

阅读量2k

点赞数

分类专栏： Python 文章标签： Python jieba 结巴分词用法

本文链接：https://blog.csdn.net/Asher117/article/details/86314110

版权

本文介绍了Python的jieba分词扩展包的使用，包括分词、自定义词典、关键词提取、词性标注、并行分词和Tokenize等核心功能。详细讲解了每个功能的实现方式和示例，适合文本挖掘初学者参考。

摘要由CSDN通过智能技术生成

最近想研究文本挖掘，所以这几天研究了一下Python的结巴分词扩展包，今天给大家分享分享我理解和使用的结巴分词，还请大家多多指导，有最近研究文本挖掘的也可以一起研究探讨。

ps：网上现在其实jieba分词有很多，而且大多讲的也差不多，但还是想写点，跟别的很多地方有一样的，大家可以都看看。
在这里插入图片描述

首先，结巴分词包安装就比较简单了，下载安装包之后在cmd里面进入该文件夹，直接运行python setup.py install 就ok啦。

Python结巴分词网上一般会讲解它的八个点，但是我最近看了之后感觉前面的六个点可能用的多一点，所以就讲一讲前面六个点。

1.分词
分词一般使用jieba.cut()或者jieba.cut_for_search()这两个函数。
1.jieba.cut()函数有三个参数：

  a.分词字符串
  b.cut_all = True/False(使用全模式还是精准模式，默认为精准模式)
  c.HMM参数用来控制是否使用HMM模型（这个参数我感觉一般不用）

2.jieba.cut_for_search()函数有两个参数：

  a.分词字符串
  b.是否使用HMM模型

这个很容易理解，大家对照着代码和输出结果看看就能懂了，如果有啥疑问，可以随时提出。

关注

专栏目录