python3制作中文词云_python3根据词频绘制词云

本文介绍了在Python3环境下,如何利用jieba分词、wordcloud库以及相关工具包,进行中文词云的制作。内容包括环境安装、文本预处理、词频统计和词云展示,提供了一个完整的词云生成流程。
摘要由CSDN通过智能技术生成

操作系统

win10 64位

准备环境

pip3 install re - 正则表达式库

pip3 install collections - 词频统计库

pip3 install numpy - numpy数据处理库

pip3 install jieba - 结巴分词

pip3 install wordcloud - 词云展示库

pip3 install PIL - 图像处理库

pip3 install matplotlib.pyplot - 图像展示库

准备工作

1.准备好你打算统计的文件,命名为 cr.txt,记住路径

2.准备一个做背景的图片,命名为 m1.jpg,记住路径

代码参考:

import re # 正则表达式库

import collections # 词频统计库

import numpy as np # numpy数据处理库

import jieba # 结巴分词

import wordcloud # 词云展示库

from PIL import Image # 图像处理库

import matplotlib.pyplot as plt # 图像展示库

# 读取文件

fn = open(r'C:\Users\cr\rmh.txt','r',encoding='utf-8') # 打开文件

string_data = fn.read() # 读出整个文件

fn.close() # 关闭文件

# 文本预处理

pattern = re.compile(u'\t|\n|\

Python根据词频绘制是一种常见的数据可视化技术。是一种以词频为基础的图像展示方法,通过统计文本中单的出现频率,在图像上按照频率大小显示单。 首先,我们需要使用Python中的一些库来完成这个任务。其中最主要的是`wordcloud`库,它提供了创建的功能。我们还需要使用`matplotlib`库来显示。 首先,我们需要获得文本数据。可以从文件、网页或数据库中获取。如果从文件中获取,我们可以使用`open()`函数来打开文件,并使用`read()`函数来读取内容。如果从网页或数据库获取,我们需要使用相应的库来获取数据。 接下来,我们需要对文本数据进行处理,以统计单的出现频率。可以使用`nltk`库来对文本进行分,将文本拆分为单。然后,使用`collections`库中的`Counter`函数对单进行计数,得到每个单的出现频率。 接下来,我们可以使用`wordcloud`库来创建。首先,我们需要创建一个`WordCloud`对象,设置的细节参数,如图像大小、背景颜色、字体样式等。然后,使用`generate_from_frequencies()`函数,传入单词频率的字典作为参数,生成图像。 最后,使用`matplotlib`库来显示。可以创建一个`matplotlib.pyplot`对象,使用`imshow()`函数来显示图像。可以设置其他参数,如是否显示轴、颜色等。最后,使用`show()`函数来显示图像。 总之,通过Python中的一些库,可以很方便地根据词频绘制。这种方法可以直观地展示文本中单的重要性和分布情况。同时,还可以通过调整参数,如字体大小、颜色等,来定制化的显示效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值