Python进行jieba分词

来源:Python爬虫与数据挖掘

前言

大家好,今天我们来看看分词。我们从之前学习过的wordcloud可以得知它只能进行英文分词,中文暂不支持,这也正是它美中不足的地方,但是有个模块正好弥补了这一点,它就是----jieba,中文名结巴,没错,你没听错也没看错,就是结巴。

一、jieba的使用

1.安装

jieba的安装不管在哪个地方安装都是一个老大难的问题,这也真是让小编头痛欲裂,幸好小编昨天下好了(花了一天,不好意思说出口)。。

下载好后,我们解压它,在文件主目录中按住shift键然后右击选择‘在此处打开命令窗口’,然后输入命令:

python setup.py install

安装即可,可以看到安装的版本信息:

图片

2.jieba的分词模式

一、精确模式

它可以将结果十分精确分开,不存在多余的词。

常用函数:lcut(str) 、 cut(str)

比如我随便找一段话进行拆分:

import jiebaaa=jieba.cut('任性的90后boy')

这样我们就得到了aa这样一个生成器序列,然后我们将它遍历即可得到最终结果:

图片

如果不想让它换行显示,想让它在一行显示并且能看到效果的话,可以这样做:

图片

很显然,我的关键字太少,导致它的效果不是很明显,下面增加关键字:

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值