原创教程:手把手教你做Python可视化词云项目(一)

 

 

一、什么是中文分词

我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,显得相对简单。但是中文比之英文要复杂得多、困难得多。中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法等模块的效果。

比如“路不通行不得在此小便”,如果加上标点符号可以变为“路不通行,不得在此小便。”或者“路不通,行不得,在此小便。”如果使用计算机系统进行分词,它可能会分词为“路”,“不”,“通行”,“不得”,“在”,“此”,“小便”,“路”,“不”,“通行”,“不得”,“在”,“此”,“小便”等。它们的含义与真实原文含义会有偏差。

 

中文分词的工具或者插件比较多,jieba结巴分词是Python库中的一个优秀分词工具。它基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG);采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法。它的网址为https://github.com/yanyiwu/cppjieba。

二、什么是词云

词云就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览者只要一眼扫过文本就可以领略文本的主旨。词云是数据可视化的一种形式,根据关键词的出现频率而生成的一幅图像,如图1-2。

 

图1- 2 一款词云效果图

三、一些词云项目

WordItOut词云图。它操作简单,进入网站后只需要输入一段文本,然后就可以生成各种样式的“云”文字。用户可以根据自己的需要对WordItOut进行再设计,比如颜色、字符、字体、背景、文字位置等,保存下载后,可以复制。但是WordItOut是不识别中文的,如果输入中英混合的文本,保存后只显示英文字体,对于不懂英文的同学是比较痛苦的。它的网址为http://worditout.com/ 。

 

Tagxed词云图。它有几大优点:强大的导入功能(可导入网页、文字等)、自定义设置词云形状(这个真心好)、可导入想要的字体、颜色主题多(各种选择)等。最重要的是它支持中文。它的网址为http://www.tagxedo.com/

 

WordArt词云图。WordArt 云可以自定义字体、词云的形状,颜色等,做出来的词云图很酷炫,为网站访问者提供良好的用户体验。它的网址为https://wordart.com/ 。

 

图悦。这款国内的在线词频分析工具,在长文本自动分词并制作词云方面还是很出众的,而且也容易上手,还可以自定义定制图形模板:标准、微信、地图等,切换自如,用起来体验很不错。它的网址为http://www.picdata.cn/ 。

 

BDP个人版词云图。这是一款数据可视化工具,除了词云,还有很多其他酷炫的图表,如GIS地图、漏斗图等。BDP很容易上手,直接把词语这个数据拉到维度栏,再选择词云就瞬间呈现词云图表,BDP会自动算好词频,你可以设置颜色,快速实现词云可视化。它的网址为https://me.bdp.cn/home.html 。

 

wordcloud词云库。它是优秀的词云展示第三方库,词云以词语为基本单位,更加直观和艺术的展示文本。它的网址为https://github.com/amueller/word_cloud

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小贝壳大贝壳

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值