如何生成关键词云图

本文介绍了如何生成词云图,包括商业化平台的对比和使用Python的wordcloud库进行词云图制作的过程。在Python实践中,遇到的字体问题、文件路径问题以及如何调整jieba分词模式和词云设置以优化结果等关键步骤进行了详细阐述。
摘要由CSDN通过智能技术生成

1、商业化云图

参考知乎
1、用了国内的一个图悦,第一眼觉得生成的图片形状很局限,且关键字都挤在一起,大小区别也不明显,颜色杂乱。
这里写图片描述

导出其excel结果表,相比较我简单粗暴的jieba统计,这个更高级一下,对不同长度的词都智能提炼出来了。下面看一下它的介绍学习
介绍

TF:热词词频指标
TF指标是一个词在文章中出现次数,出现的次数越多一般越重要,输出的词频信息只是参考,目前采用的分词方法是大词优先,不是以小词优先的,比如“改革”和“改革开放”都是词,在统计词频时,“改革开放”中的“改革”不会计入“改革”的词频,算两个不同的词,输出的图有“热词词频图”、“词频柱状图”,图形模式可自选。

Score,热词权重指标

1) Score指标是指一个词在文章中重要性,主要由TF热词词频,IDF倒转文档频率,other其它三个指标决定,输出的图有热词权重图,图形模式可自选。
2) IDF,“倒转文档频率”,表示词的区分能力,区分能力越差的词其主题代表性越弱,比如各种常用词如“如果”;词在文章中的位置因素;
3) Other,词在文章中与其他词的语义聚合程度等。


所以这个优点在于大词优先和IDF

IDF:TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
—–大致是说这些词在大部分文章中都用到的多,一般是个常用词,在该篇文章中没有特指性,所以重要性会低。
TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

2、BDP个人版
需要注册 懒。。BDP
这是一款数据可视化工具,除了词云,还有很多其他酷炫的图表,如GIS地图、漏斗图、瀑布图、桑基图等,来了解它们的词云。工具很容易上手,直接把词语这个数据拉到维度栏,再选择词云就瞬间呈现词云图表,BDP会自动算好词频,你可以设置颜色,快速实现词云可视化,特别简单。
不是专门制作词云的工具,但是还有几十种图表供你使用,是一款比较好的数据分析工具。
3、蓝标
BlueView词云工具。蓝标
————————————————————————————————————————
以上均是一些商业化的平台,下面我自己试着做一个:
参考文章

1、准备工作

python中有第三方包可以用:wordcloud,下载安装如下:
1࿰

  • 5
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值