python数据挖掘实战笔记——文本挖掘(2):中文分词

本文介绍了中文分词的概念,重点讲解了Python的jieba库在中文分词中的应用,包括如何处理停用词,以及如何导入自定义词库。通过示例展示了如何使用jieba.cut()方法进行分词,并对语料库进行处理,以便后续分析。
摘要由CSDN通过智能技术生成

需要了解的几个概念:
**中文分词:**将一个汉字序列切分成一个一个的词。
**停用词:**数据处理时,需要过滤掉某些字或词,泛滥的词,比如web\网站等,语气助词、介词、副词、连接词等,如 的、地、得

需要用到的模块:jieba
jieba最主要的方法就是cut()方法,举个例子:

import jieba
for w in jieba.cut("我爱Python"):
    print(w)
我
爱
Python
seg_list = jieba.cut(
    "真武七截阵和天罡北斗阵哪个更厉害呢?"
)
for w in seg_list:
    print(w)
真武
七截阵
和
天罡
北斗
阵
哪个
更
厉害
呢
?

虽然jieba包已经有默认词库,但是有时候遇到一些专业的场景会出现一些不太理想的效果(如上所示代码),这种情况就需要我们导入一些专有词。

jieba.add_word('真武七截阵')
jieba.add_word('天罡北斗阵')
seg_list = jieba.cut(
    "真武七截阵和天罡北斗阵哪个更厉害呢?"
)
for w in seg_list:
    print(w)
真武七截阵
和
天罡北斗阵
哪个
更
厉害
呢
?

当词的数量很多时,可以用jieba.load_userdict()方法,将包含所有专用词的txt文件一次性导入用户自定义词库中:


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值