Deep Learning（深度学习）实验一：词云的制作

最新推荐文章于 2025-02-28 11:21:55 发布

YzYzYzzzzz

最新推荐文章于 2025-02-28 11:21:55 发布

阅读量1.2k

点赞数 1

分类专栏：深度学习实验文章标签：深度学习

本文链接：https://blog.csdn.net/m0_46501404/article/details/113539497

版权

深度学习实验专栏收录该内容

2 篇文章

订阅专栏

Deep Learning（深度学习）实验一：词云的制作

什么是词云： 词云是一个简单但功能强大的可视化表示对象，用于文本处理，它以更大，更粗的字母和不同的颜色显示最常用的词，单词的大小越小，重要性就越小。

一、前期准备

安装所需要的包：
1. wordcloud：实现词云的包
2. matplotlib：python里用于绘图的包
3. jieba：中文分词包
4. PIL：python里用于处理图片的包
准备需要用的txt文本文件
WordCloud()可选参数：
1. fond_path：用于指定字体路径，包括 otf 和 ttf
2. width：词云的宽度，默认400
3. height：词云的高度，默认200
4. mask：蒙版，可用于定制词云的形状
5. min_font_size：最小字号，默认为4
6. max_fond_size：最大字号，默认为词云的高度
7. max_words：词的最大数量，默认200
8. stopwords：将被忽略的停用词，如果不指定则使用默认的停用词词库
9. background_color：背景颜色默认为black
10. mode：默认为RGB模式，如果是RGBA模式且background_color设为None，则背景将透明

二、实现代码

案例一：英文词云

from wordcloud import WordCloud
import matplotlib.pyplot as plt

# 打开文本,这个‘English’可以自己制作，注意文件格式
text = open("/Users/yzyzzzz/Documents/DeeplearningCode/wordcloud/English.txt").read()
# 生成对象
wc = WordCloud().generate(text)
# 显示词云
plt.imshow(wc, interpolation='bilinear')
# 坐标轴off
plt.axis('off')
# 显示图片
plt.show()
# 保存生成的图片：位置路径加上图片名和格式即可将图片按要求保存到指定位置
wc.to_file('/Users/yzyzzzz/Downloads/wordcloud1.png')

实现结果：
在这里插入图片描述

案列二：中文词云

实现代码：

from wordcloud import WordCloud
import matplotlib.pyplot as plt
import jieba


# 打开文本,该'Chinese'中文txt文件可自己制作
text = open("/Users/yzyzzzz/Documents/Deeplearning Code/wordcloud/Chinese.txt").read()
# 进行中文分词
text = ' '.join(jieba.cut(text))
print(text[:200])
# 生成对象，字体路径：Hiragino.ttf、宽度800、高度600、模式RGBA、背景透明  （注意字体的.ttf文件一定要放在代码的同个文件夹下）
wc = WordCloud(font_path='Hiragino.ttf', width=600, height=400, mode='RGBA', background_color=None).generate(text)
# 显示词云
plt.imshow(wc, interpolation='bilinear')
# 坐标轴off
plt.axis('off')
# 显示图片
plt.show()
# 保存生成的图片：位置路径加上图片名和格式即可将图片按要求保存到指定位置
wc.to_file('/Users/yzyzzzz/Downloads/wordcloud2.png')

运行结果：
在这里插入图片描述

注意事项：

中文词云的重点是要进行分词，英文每个单词之间都有空格隔开，而中文没有，所以中文需要‘jieba’包进行分词操作，让词云显示的词组更加合理。
字体的.ttf文件一定要放在代码的同个文件夹下，否则会出现下面展示的bug。

案例三： 根据关键词和权重显示词云
代码实现：

from wordcloud import WordCloud,ImageColorGenerator
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
# jieba.analyse：用于提取关键词
import jieba.analyse

# 打开文本,该'Chinese'中文txt文件可自己制作
text = open("/Users/yzyzzzz/Documents/DeeplearningCode/wordcloud/Chinese.txt").read()
# 进行中文分词,提取关键词和权重，topK：频率为前200的词
freq = jieba.analyse.extract_tags(text, topK=200, withWeight=True)
# 打印前20个单词
print(freq[:20])
# 把词和权重转化为字典
freq = {i[0]: i[1] for i in freq}

# 生成对象
mask = np.array(Image.open("/Users/yzyzzzz/Documents/Deeplearning Code/wordcloud/color_mask.png"))
# 把字典freq放入generate_from_frequencies()函数中
wc = WordCloud(mask=mask, font_path='Hiragino.ttf', mode='RGBA', background_color=None).generate_from_frequencies(freq)
# 从图片中生成颜色
image_colors = ImageColorGenerator(mask)
wc.recolor(color_func=image_colors)
# 显示词云
plt.imshow(wc, interpolation='bilinear')
# 坐标轴off
plt.axis('off')
# 显示图片fre
plt.show()
# 保存生成的图片：位置路径加上图片名和格式即可将图片按要求保存到指定位置
wc.to_file('/Users/yzyzzzz/Downloads/wordcloud3.png')