关于词云绘制你应该知道什么?

词云图是一种文本数据可视化的形式,通过词频统计显示词汇,高频词字号大颜色深。它在用户画像、舆情分析等领域广泛应用,制作简单且内容直观。然而,词云图可能造成信息缺失和逻辑混乱。在实际操作中,需要注意txt文档编码、中文字体、词性过滤和专有名词处理。
摘要由CSDN通过智能技术生成

1、原理

词云图是文本数据可视化的一种形式,视觉冲击力较强,迎合现在快节奏的生活,能够让人聚焦主旨,眼前一亮。其原理是对输入的文本数据进行词频统计,根据词汇出现频率的不同,按不同比例显示词汇,生成图片,频率高的词汇显示的字号大颜色深,频率低的词汇显示的字号小颜色浅。

1)优点

应用广泛:可以应用到用户画像、舆情分析等场景下,还可以直接嵌入到PPT报告、数据分析类产品中,是对文本数据价值变现的一种手段。

制作简单:制作词云图的难度不高,没有数据处理技术背景的人也能做出有效的词云图来。

内容直接:词云图是对文本内容的高度浓缩和精简处理,能更直观的反映特定文本的内容,让读者快速捕捉文本数据主要信息。

趣味性强:可以通过调整颜色深浅、气泡大小等容易判断度量的大小,以关键词字体的大小直接展示数据的数值大小,还可以根据实际使用调整词云形状,使图表具有直观、有趣的效果。

2)缺点

信息缺失:仅仅是词汇的勾勒仍然无法展示事物原貌,缺少辅助说明信息的图表存在信息缺失的问题。

缺乏逻辑:词云图是由各类词汇在空间上按一定图形组合而形成的,这些词汇都是从有逻辑结构的文本数据中拆分出来的,从文字变成了图形后,再呈现出来的内容失去了内在的逻辑结构,需要读者将高频词汇串联起来形成联想才能获取到信息。

3)注意事项⚠️

txt文档的编码格式、中文字体的设置、对词性的设置选择、专有名词

2、实操

1)绘制词云图基础代码

import jieba#分词包
import jieba.analyse
from wordcloud import WordCloud#wordcloud库制作词云
import imageio#导入图片工具包
import matplotlib.pyplot as plt#常用绘图工具包,常用于python数据可视化
from collections import Counter#计数,频数统计
import pandas as pd#数据分析包

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值