小王子词云图的生成

最新推荐文章于 2024-07-23 17:15:35 发布

Spring_escape

最新推荐文章于 2024-07-23 17:15:35 发布

阅读量258

点赞数 7

文章标签： python3.11 python 中文分词

本文链接：https://blog.csdn.net/2401_84069125/article/details/137756124

版权

源代码:

# TODO 读取《小王子》中文版文本文件,并生成词云图

# 导包
import re
import jieba
import numpy as np
import pandas as pd
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from PIL import Image

zh_pattern = re.compile(u'[\u4e00-\u9fa5]+')
# TODO 1 读取《小王子》中文版文本文件
file = open('《小王子》中文版.txt', 'r', encoding='ansi')
content = file.read()
file.close()

# TODO 2 统计词频
# 2.1 选取停用词(停用词来自 中文停用词表)
stat = []
stop_words = set()
with open('cn_stopwords.txt', 'r', encoding='utf-8') as f:
    for line in f:
        stop_words.add(line.strip())
    # 2.2 去除停用词,并进行jieba分词
segs = jieba.cut(content)
for seg in segs:
    if zh_pattern.search(seg):
        if seg not in stop_words:
            stat.append({'from': '小王子', 'word': seg})

stat_df = pd.DataFrame(stat)
pt_stat = stat_df.pivot_table(index='word', columns='from', fill_value=0, aggfunc=np.size)

# TODO 3 读取小王子背景图片并转换为灰度图像(可视化部分)
mask_image = np.array(Image.open("BackGround.png").convert("L"))

# TODO 4 创建词云对象 (设置字体,颜色,背景图)
cloud = WordCloud(font_path='C:\\simhei.ttf', background_color='white', colormap='Paired', mask=mask_image)
cloud.fit_words(pt_stat['小王子'].to_dict())

# TODO 5 显示词云图
plt.figure(figsize=(5, 5))  # 设置画布大小
plt.imshow(cloud)
plt.axis('off')  # 不显示坐标轴
plt.show()