【Python】jieba分词扩展包讲解

本文介绍了Python的jieba分词扩展包的使用,包括分词、自定义词典、关键词提取、词性标注、并行分词和Tokenize等核心功能。详细讲解了每个功能的实现方式和示例,适合文本挖掘初学者参考。
摘要由CSDN通过智能技术生成

摘要

最近想研究文本挖掘,所以这几天研究了一下Python的结巴分词扩展包,今天给大家分享分享我理解和使用的结巴分词,还请大家多多指导,有最近研究文本挖掘的也可以一起研究探讨。

ps:网上现在其实jieba分词有很多,而且大多讲的也差不多,但还是想写点,跟别的很多地方有一样的,大家可以都看看。
在这里插入图片描述

首先,结巴分词包安装就比较简单了,下载安装包之后在cmd里面进入该文件夹,直接运行python setup.py install 就ok啦。

Python结巴分词网上一般会讲解它的八个点,但是我最近看了之后感觉前面的六个点可能用的多一点,所以就讲一讲前面六个点。

1.分词
分词一般使用jieba.cut()或者jieba.cut_for_search()这两个函数。
1.jieba.cut()函数有三个参数:

  a.分词字符串
  b.cut_all = True/False(使用全模式还是精准模式,默认为精准模式)
  c.HMM参数用来控制是否使用HMM模型(这个参数我感觉一般不用)

2.jieba.cut_for_search()函数有两个参数:

  a.分词字符串
  b.是否使用HMM模型

这个很容易理解,大家对照着代码和输出结果看看就能懂了,如果有啥疑问,可以随时提出。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值