如何使用R语言制作词云

词云是一种常见的文本数据可视化的方法,词云分析的工作有多种,其中使用R语言中的wordcloud包中的wordcloud2函数可以很方便地制作词云。

关于wordcold2函数的用法不再赘述,查以使用help(wordcloud2)查看有关帮助,其中的参数是不难理解的,可以运行一下帮助文档的示例(Examples),体会一下其中的用法。

在实际的数据分析中,我们常常需要把一段文字进行词云的制作,这个时候首先要行分词,接下来要统计词频,对其中的词语进行清洗,最后绘制词云。

这个过程可以使用jiebaR包进行分词,再进行了些数据处理,最后使用wordcold2进行词云制作。

首先要做一项准备工作,把先在R的工作路径中建立一个名为wordcloud的txt文件,将需要做词云的文本复制到文件中,并保存。

因需要使用jiebaR进行分词,使用wordcloud2包制作词云,需要事先安装这两个包,如果没有安装,可以运行install.packages(“jiebaR”)和install.packages(“wordcloud2”)安装

接下来给出代码,可以直接输出结果:

library(jiebaR)
library(wordcloud2)   

#以字符串形式读入数据,分隔符是‘\n’,字符编码是‘UTF-8’
words <-  scan('wordcloud.txt',sep='\n',what='',encoding="UTF-8")
#利用默认库进行分词
engine <- worker()
seg <- segment(words, engine)

seg<-seg[nchar(seg)>1] #去除字符长度小于1的词,这一行如不需要,可以注释掉
seg<-table(seg) #计算词频
#seg<-seg[!grepl("[的,我]",names(seg))] #去掉了一些无意义的词,此行可以根据结果进行调整;这一行注释掉了,可以根据需要运行
seg<-seg[!grepl('[0-9]+',names(seg))] #过滤数字,这一行如不需要,可以注释掉

seg <- sort(seg, decreasing = TRUE)[1:50]
#获得词频数前50的词,可以调整为词频为前其他的词
seg #输出词频

#制作词云
wordcloud2(seg,size=0.5,color = "random-light")

其中数据清洗过程注释掉了一行,有进候我们不需要某些词进入词云,这时可以取消注释,对其中的关键词进行修改后,再重新运行,输出的词云图就没有这个词了。

这里是选取了词频前50的词绘制词云,这个参数也可以根据需要进行修改。

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值