python的jieba库功能_Python基于jieba库进行简单分词及词云功能实现方法

最新推荐文章于 2024-05-17 08:30:00 发布

weixin_39915171

最新推荐文章于 2024-05-17 08:30:00 发布

阅读量424

点赞数

文章标签： python的jieba库功能

本文实例讲述了Python基于jieba库进行简单分词及词云功能实现方法。分享给大家供大家参考，具体如下：

目标：

1.导入一个文本文件

2.使用jieba对文本进行分词

3.使用wordcloud包绘制词云

环境：

Python 3.6.0 |Anaconda 4.3.1 (64-bit)

工具：

jupyter notebook

从网上下载了一篇小说《老九门》，以下对这篇小说进行分词，并绘制词云图。

分词使用最流行的分词包jieba，参考：https://github.com/fxsjy/jieba

或点击此处本站下载jieba库。

词云使用wordcloud包，参考：https://github.com/amueller/word_cloud

或点击此处本站下载wordcloud库。

这两个包都不是anaconda自带的，需要按官网的步骤安装。

import wordcloud as wc

import jieba

import matplotlib.pyplot as plt

from scipy.misc import imread

%matplotlib inline

plt.rc('figure', figsize=(15, 15))

首先读取文件，保存到一个字符串对象中。

all_text = open(file='老九门.txt', encoding='utf-8').read()

查看一下字符串的内容，发现其中有很多多余的字符：'\n'、'\u3000'。

all_text

'\ufeff《盗墓笔记》中，一段与二月红有关的故事。\n《老九门》壹：二月红①\n丝帐许久没有换过了。\n\u3000\u3000她半夜入不了眠，睁开眼睛，便看到床边垂下的帐面，在月光下看着有一死暗淡。原来可是丝丝的带着光亮，好像最白的银拉出来的丝一般。\n\u3000\u3000果然再好的东西，也总是由好往坏了去。\n\u3000\u3000以往一过立秋，... ...

在分词之前先把这些多余字符剔除掉。

all_text = all_text.replace('\n', '' )

all_text = all_text.replace('\u3000', '')

下面先尝试做一次分词，把所有分词用空格分开，输出看一下分词的结果：

seg_list = jieba.cut(all_text, cut_all=False)

words =' '

for seg in seg_list:

words = words + seg + ' '

print(words)

《盗墓笔记》中，一段与二月红有关的故事。《老九门》壹：二月红 ① 丝帐许久没有换过了。她半夜入不了眠，睁开眼睛，便看到床边垂下的帐面，在月光下看着有一死暗淡。原来可是丝丝的带着光亮，好像最白的银拉出来的丝一般。果然再好的东西，也总是由好往坏了去。以往一过立秋，她就会亲自拆下这块帐头，亲自去漂洗，她知道这东西的脾气，得小心伺候着，一寸一寸地过水。如今不让她下床，这东西没人伺候了，倒也显得越来越不值当被这么细心对待起来。也许，下一个立秋的时候，才有人敢动这个东西，但那个人，必然不是自己了。中午大夫和他说的那些话，虽然是在屋外，但是她还是听到了几分，自己的病，不知道还有多少日子可熬。她舒了口气，胸中的那丝痛楚似乎好了一些。多少日

... ...

从分词结果里可以发现，有一些固定词语，例如“盗墓笔记”、“老九门”、“二月红”、“张大佛爷”、“齐铁嘴”等书名、人名被分开了。在这篇小说的环境下，这些才成为固定词语，而默认的分词策略根据通常的认识来分词的。

针对这个情况，jieba有一个“用户词典”的机制，把用户认为应该成为整词的，放到词典里，在分词的时遇到它们，就会当作一个整体。

在目录下新建一个文本文件dick.txt，输入以下词语：

老九门

二月红

盗墓笔记

张大佛爷

解九爷

解九

狗五

以下为jieba引入这个词典文件，再做一次分词：

jieba.load_userdict('dict.txt')

all_seg = jieba.cut(all_text, cut_all=False)

all_word =' '

for seg in all_seg:

all_word = all_word + seg + ' '

print(all_word)

... ...

从这个结果来看，就不会再把人名、书名分开了。

以下开始制作词云。

制作词云，使用的是wordcloud包，由两个参数需要特别注意，一个是字体，一个是背景图片。字体好理解，就不解释了。背景图片，是词云显示的背景形状。这里选用了一个心形图案。

以下是词云制作过程：

# 引入字体

font=r"C:\WINDOWS\Fonts\simhei.ttf"

#读取背景图片,生成矩阵

color_mask = imread("love.jpg")

# 生成词云对象，设置参数

cloud = wc.WordCloud( font_path=font,#设置字体

background_color="black", #背景颜色

max_words=2000,# 词云显示的最大词数

mask=color_mask,#设置背景图片

max_font_size=100, #字体最大值

random_state=42)

# 绘制词云图

mywc = cloud.generate(all_word)

plt.imshow(mywc)

# 把词云图保存到磁盘文件中

mywc.to_file('老九门wordcloud.png')

以上就是使用python进行分词，并绘制词云图的简单操作。对于jieba和wordcloud的更高级的使用方法，还需要进一步研究和学习。

更多关于Python相关内容感兴趣的读者可查看本站专题：《Python数学运算技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

本文标题: Python基于jieba库进行简单分词及词云功能实现方法

本文地址: http://www.cppcns.com/jiaoben/python/230390.html

weixin_39915171

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python的jieba库功能_Python基于jieba库进行简单分词及词云功能实现方法

本文实例讲述了Python基于jieba库进行简单分词及词云功能实现方法。分享给大家供大家参考，具体如下：目标：1.导入一个文本文件2.使用jieba对文本进行分词3.使用wordcloud包绘制词云环境：Python 3.6.0 |Anaconda 4.3.1 (64-bit)工具：jupyter notebook从网上下载了一篇小说《老九门》，以下对这篇小说进行分词，并绘制词云图。分词使用最流...
复制链接

扫一扫