python数据可视化热度词云

db-xx-2064

已于 2023-06-17 14:05:54 修改

阅读量987

点赞数

分类专栏： python 文章标签： python pip pandas 大数据

于 2023-06-13 23:36:22 首次发布

本文链接：https://blog.csdn.net/fcx1234/article/details/131198238

版权

python 专栏收录该内容

1 篇文章

订阅专栏

该项目通过爬取豆瓣电影Top100的电影类型，使用jieba进行中文分词，然后利用wordcloud进行词云图的生成，展示电影类型的热度。数据处理和分析使用了pandas，最后通过pyecharts展示具有特定样式的词云图。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.项目简介

1.词云

词云是基于文本分析的一种可视化方式，通过统计分析文本中每个词的出现频率，并在图形界面上根据词频以不同大小、颜色、形状等方式展现，来反映文本的热点话题或主题关键词，具有可视化、直观、易理解等特点，在文本分析领域得到广泛应用。

词云的生成可以分成三步：读入文本，将文本进行分词，统计词频并生成词云图。

2. wordcloud介绍

wordcloud对象有很多参数设定，可以绘制不同形状、颜色和尺寸的词云图。

参数	说明
font_path	设置字体，指定字体文件的路径
width	生成图片宽度，默认400像素
height	生成图片高度，默认200像素
mask	词云形状，默认使用矩形
min_font_size	词云中最小的字体字号，默认四号
font_step	字号步进间隔，默认1
max_font_size	词云中最大的字体字号，默认根据高度自动调节
max_words	词云显示的最大词数，默认200
stopwords	设置停用词（需要屏蔽的词），停用词不在词云中显示，默认使用内置的STOPWORDS
background_color	图片背景颜色，默认黑色

wordCloud常用方法

方法	功能
generate(text)	加载词云文本
to_file(filename	输出词云文件

3.数据

使用八爪鱼软件爬取豆瓣电影的top100电影的类型，因为所爬取的内容中影片的类型不止一个，所以需要通过jieba分词器分词之后，才能统计各个词出现的频数，再根据词频绘制词云图，这是数据分析的内容，用pandas库实现。

数据来源：豆瓣电影

二.项目实施步骤

1.安装相应的第三方库

因为wordcloud默认是为英文文本来做词云，如果需要制作中文文本词云，则需要用jieba中文分词库进行分词

首先是中文分词jieba的安装

$ pip3 install jieba

然后安装wordcloud词云图库

$ pip3 install wordcloud