python数据挖掘实战笔记——文本挖掘（2）：中文分词

最新推荐文章于 2021-01-14 13:14:11 发布

小柴~

最新推荐文章于 2021-01-14 13:14:11 发布

阅读量1.9k

点赞数 2

分类专栏： python 文章标签： python数据挖掘

本文链接：https://blog.csdn.net/weixin_42695959/article/details/82842060

版权

本文介绍了中文分词的概念，重点讲解了Python的jieba库在中文分词中的应用，包括如何处理停用词，以及如何导入自定义词库。通过示例展示了如何使用jieba.cut()方法进行分词，并对语料库进行处理，以便后续分析。

摘要由CSDN通过智能技术生成

需要了解的几个概念：
**中文分词：**将一个汉字序列切分成一个一个的词。
**停用词：**数据处理时，需要过滤掉某些字或词，泛滥的词，比如web\网站等，语气助词、介词、副词、连接词等，如 的、地、得。

需要用到的模块：jieba
jieba最主要的方法就是cut()方法，举个例子：

import jieba
for w in jieba.cut("我爱Python"):
    print(w)
我
爱
Python

seg_list = jieba.cut(
    "真武七截阵和天罡北斗阵哪个更厉害呢？"
)
for w in seg_list:
    print(w)
真武
七截阵
和
天罡
北斗
阵
哪个
更
厉害
呢
？

虽然jieba包已经有默认词库，但是有时候遇到一些专业的场景会出现一些不太理想的效果（如上所示代码），这种情况就需要我们导入一些专有词。

jieba.add_word('真武七截阵')
jieba.add_word('天罡北斗阵')
seg_list = jieba.cut(
    "真武七截阵和天罡北斗阵哪个更厉害呢？"
)
for w in seg_list:
    print(w)
真武七截阵
和
天罡北斗阵
哪个
更
厉害
呢
？

当词的数量很多时，可以用jieba.load_userdict()方法，将包含所有专用词的txt文件一次性导入用户自定义词库中：

最低0.47元/天解锁文章

小柴~

关注

2
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录