文本关键词提取工具_3款国内外超好用的词云可视化工具,强烈推荐!【关键词】...

本文介绍了词云的概念,其作为大数据可视化的一种方式,常用于信息提炼和情感分析。文章列举了Wordle、WordArt、图悦等词云生成工具,并通过Python展示了词云图的制作过程,包括基础制作、美化和中文词云的处理,鼓励读者进一步探索词云的高级应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

相信大家对下面这种类型的图片并不陌生,这种被称作“词云图”的图片越来越常出现于互联网、线下商业演讲,甚至是学生的课堂。

那么词云是什么?词云图又是如何生成的呢?下面我们就来一一探讨吧!

cea4cb333489227bdcc29fa6e4ea6df3.png

词云是什么?

如今面对信息资讯爆发式地涌入,能否从冗长琐碎的文本中提炼出出现频率最高且有意义的“关键词”就成为了决定信息读取效率的关键因素。另一方面,越来越多的研究表明,人类对图像的敏感程度要远远高于文字和声音。于是,“词云”这个概念顺势而生。“词云”是一种大数据的可视化方式,随着大数据和人工智能的不断发展,词云图也越来越常出现在我们的视野中。词云平台能迅速且较为准确地提取文本的重要信息,然后将提取出的信息切分成关键词列表,最后以图片的形式展现给用户。词云可用于各种大数据分析,例如:对爬虫获取的淘宝买家评论、豆瓣影评、微博中的明星动态、时事热点关键词等数据进行提取并做情感分析。其拥有新颖、直观、便捷等多项优点,因此常被人们用于作网站信息轮播图、商业演说PPT插图、产品广告图,以及粉丝制作的明星实绩图等,它的用途可谓是极为广泛!

词云生成工具有哪些?

目前国内外拥有Wordle、WordArt、图悦等众多在线词云制作工具。Wordle简洁的界面设计给用户最舒适的视觉体验,对于冗长的文本和繁杂的词汇它都能快速地得出分析结果,并将出现频率较高的词汇突出展示。另外这款工具还拥有调整字体布局及配色等功能。

565ab489cc518e7276fadb17f996a50f.png

WordArt功能齐全,可以自定义字体、词云形状、颜色等,做出来的词云图酷炫、精美,但由于是国外网站所以在访问时响应会比较缓慢。

d137cdd12b82d0f57b5a187b4c3ae2ba.png

图悦是一款国产词云工具,它在长文本的分析、提炼方面的表现还是十分值得一提的,而且对于用户来说操作也比较方便,还支持自定义模板图片,但在界面美观程度、导出excel词频等方面还稍有欠缺。

85f0fadc41939db00b15466010258995.png

词云怎么生成?
经过前面的介绍,大家应该对词云有了初步了解,那么词云图究竟是如何生成的呢?词云图的制作其实并不复杂,我们也可以制作出属于自己词云图,下面让我们用python上手制作词云图吧!

4fe1663fffb6ae42ef02f4dbddb2aa48.png

(一)词云图初制作

1、导入所需库导入wordcloud词云库用于词云图的制作2、创建词云对象在wordcloud中一个词云对象对应一张词云图片,使用wordcloud词云库的WordCloud函数创建词云对象,并存储在一个变量中,此时该变量就表示一个词云对象3、写入文本写入文本(仅支持英文),并存储在一个变量中 4、文本分析调用wordcloud库的generate方法对该句子进行分析5、导出结果图为词云图命名,并利用to.flie方法将词云图以指定格式导出至本地文件夹(改变文件名的后缀即可输出不同格式的图片文件,支持png、jpg、svg等格式)详细代码:

7fa817b87d77acf400c5f21510c82d28.png

效果图:

9819611656a42b8efca06bea0c412cd0.png

(二)美化词云图

本文用imageio图形库来导入外部图片作为词云的形状模板,另外wordcloud库中有很多属性,我们还可以通过设置属性的参数来美化我们的词云图。

在上一步的基础上进行以下优化:

1、导入所需库

导入imageio图形库用于外部图片的导入(支持png、jpg、svg等格式),导入wordcloud词云库的ImageColorGenerator模块用于提取模板图片的各部分颜色

2、图片处理

(1)用imageio库中的imread函数读取本地图片,wordcloud会将该模板图片中白色区域以外的部分全部渲染出来

(2)设置词云图属性,以下列举了一些常用属性:

586d46440238dcc5d4b42945c9284186.png

3、文本处理

前面用直接写入文段的方式来为词云添加词语,那么当我们要提炼的词语来自一个很长的文本时该怎么办呢?

我们可以通过引用外部文件的方式来为词云添加词语,并根据该文本文件的编码方式来选择相应的读取方法

4、图片重上色

用color_func提取模板图片的各部分颜色,再用recolor给词云图重新上色,即可生成拥有新颜色的词云图片

5、导出结果图

为词云图命名,并利用to.flie方法将词云图以指定格式导出至本地文件夹(改变文件名的后缀即可输出不同格式的图片文件,支持png、jpg、svg等格式)

示例:使用“chinamap.jpg”作为模板图片和“三国演义.txt”文本制作词云图

bd6108c766fc26fda2a897271868c97a.png

chinamap.jpg

9b9b7fb25c13d4049c5e5d3e323c3261.png

三国演义.txt

详细代码:

0f16204fe947ea7ebd40084b846e0b3d.png

效果图:

7eb41ba0f83739df01c186377ee829d6.png

(三)中文词云图

前面使用的wordcloud词云库能够完成英文句子、词法的分析并生成词云图,但并不支持中文分词。

当然,如果引入了中文字体,wordcloud也能将中文文本进行切分,但只能生成类似上一步的句子样式的词云图,因此只有引入了中文分词库才能有效地对中文文本进行分词。

jieba分词有三种模式:

72b28ea624c12d4bda106110a5de90fe.png

大家可以根据自己的需求选择合适的分词模式,本文采用jieba分词的精确模式对文本进行分词,如下:

5e1dc4ddda3a6c0c8b23e889a754c0dc.png

jieba会将文本中的句子切分成一个个词组成的列表,而wordcloud里需要传入的是字符串而不是列表,因此还需要用空格将这些词分隔开,形成一个长字符串,如下:

e89e0c6ffc63733de7ac5bdbef871212.png

jieba会将文本中的句子切分成一个个词组成的列表,而wordcloud里需要传入的是字符串而不是列表,因此还需要用空格将这些词分隔开形成一个长字符串,如下:详细代码:

e97e38ab077eca2acc26f5dd561db58c.png

效果图:

685cbf81278f482874ceab142fdcf062.png

亲爱的朋友们,你们学会了吗?

当然,词云制作工作不仅限于上述内容,我们还可以用词云做情感分析绘制用户画像等。

想要制作出更高大上的词云图还需做很多优化工作,剩下的词云优化就交给大家慢慢探索吧!

如果你喜欢这篇文章,麻烦点一下“赞同“噢~谢谢

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值