前言:
现在用词云的个人博客或者网站越来越多了,就类如这样:
实验楼以前的一张首页部分截图
其实“词云”是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的无意义信息,使浏览者只要一眼扫过词云图片就可以领略文章或者网页内容的主旨。
不仅如此,一幅制作精美的词云图片,可以起到一图胜千言的效果,在报告或者PPT中适当的使用词云,会使表达更清晰充分,为演讲者表达的意义加分。
网上固然有各种词云制作工具软件,但是作为程序员,你是否想过自己制作一个定制化的词云呢?如果你想自己制作个性化的词云,那么这个项目教程就不能错过了。
项目简介:
该项目使用Python的wordcloud扩展包制作词云,并通改进wordcloud使其能够制作中文词云。此外,还将分享如何用自己喜欢的图片作为词云轮廓对词云进行定制。
- 涉及知识点:
了解制作词云的基本步骤和原理;
学会用Python代码实现词云制作;
掌握wordcloud扩展包的使用;
实战:使用自定义图片制作词云,分析《三体》I、 II、 III的关键词;
词云制作原理:
词云的原理是对输入的文本数据进行词频统计,根据词汇出现频率的不同,按不同比例显示出词汇,生成图片。频率高的词汇显示的大,频率低的词汇显示的小。文本数据可以是本地数据,也可是是爬虫动态从网络中获取的。
开发步骤:
1、运行一个简单工程,测试扩展包安装是否正常
运行一下官方的示例程序,确保扩展包安装正常,程序能够正常工作。
在work目录下新建python脚本,命名为simple.py,
$ gedit simple.py
代码如下:
#!/usr/bin/env python
"""
Minimal Example
====