在数据可视化方面,词云一直是一种视觉冲击力很强的方式。对输入的一段文字进行语义分割,得到不同频度的词汇,然后以正比于词频的字体大小无规则的集中显示高频词,简洁直观高效。
词云虽好,但也要易做才行。本文探索了3种生成词云的方式:
在线工具
软件工具
编程工具
00 数据来源
春节期间,NBA传奇巨星科比·布莱恩特意外坠机身亡,引得无数球迷无限惋惜。聊表敬意,写了一个小爬虫爬取了豆瓣上科比一组记录片的评论信息,以此作为文本分析的数据来源。(豆瓣搜索"曼走 科比《告别》"即可)
01 生成词云之在线工具
搜索词云在线生成工具,会得到很多结果,包括国内外的网站平台都有。对比了搜索较为靠前的几款在线工具,但或多或少都存在一些使用上瑕疵,有的是网页加载慢,有的是要注册后方可使用,有的是字体支持较差,还有的是要付费使用。
当然,毕竟是要使用方便快捷有效的,而且最好还是免费的就完美了。对比之后,感觉这两个平台还算相对好用:
WordArt
优点:无需注册即可使用;对热词数量无限制;支持个性化配置,包括热词、字体、形状等;在线词云支持交互查看
缺点:英文操作界面,部分用户使用不便,加载较慢;字体支持差,中文仅有一种支持字体,且因权限问题可能无法添加本地字体
默认字体库仅有一种字体支持中文
微词云
优点:支持自动文本分析;有大量形状模板,也支持自定义模板;图片色彩多样,包括渐变色;支持大量字体;操作简单
缺点:需注册后方可使用;免费使用下载图片有水印;对热词数量有限制