如何使用R语言制作词云

AhaBob

已于 2024-07-24 10:27:02 修改

阅读量202

点赞数 3

文章标签： r语言信息可视化开发语言数据分析统计学

于 2024-07-24 10:22:13 首次发布

本文链接：https://blog.csdn.net/AhaBob/article/details/140655374

版权

词云是一种常见的文本数据可视化的方法，词云分析的工作有多种，其中使用R语言中的wordcloud包中的wordcloud2函数可以很方便地制作词云。

关于wordcold2函数的用法不再赘述，查以使用help(wordcloud2)查看有关帮助，其中的参数是不难理解的，可以运行一下帮助文档的示例（Examples），体会一下其中的用法。

在实际的数据分析中，我们常常需要把一段文字进行词云的制作，这个时候首先要行分词，接下来要统计词频，对其中的词语进行清洗，最后绘制词云。

这个过程可以使用jiebaR包进行分词，再进行了些数据处理，最后使用wordcold2进行词云制作。

首先要做一项准备工作，把先在R的工作路径中建立一个名为wordcloud的txt文件，将需要做词云的文本复制到文件中，并保存。

因需要使用jiebaR进行分词，使用wordcloud2包制作词云，需要事先安装这两个包，如果没有安装，可以运行install.packages(“jiebaR”)和install.packages(“wordcloud2”)安装

接下来给出代码，可以直接输出结果：

library(jiebaR)
library(wordcloud2)   

#以字符串形式读入数据，分隔符是‘\n’，字符编码是‘UTF-8’
words <-  scan('wordcloud.txt',sep='\n',what='',encoding="UTF-8")
#利用默认库进行分词
engine <- worker()
seg <- segment(words, engine)

seg<-seg[nchar(seg)>1] #去除字符长度小于1的词，这一行如不需要，可以注释掉
seg<-table(seg) #计算词频
#seg<-seg[!grepl("[的,我]",names(seg))] #去掉了一些无意义的词，此行可以根据结果进行调整；这一行注释掉了，可以根据需要运行
seg<-seg[!grepl('[0-9]+',names(seg))] #过滤数字，这一行如不需要，可以注释掉

seg <- sort(seg, decreasing = TRUE)[1:50]
#获得词频数前50的词，可以调整为词频为前其他的词
seg #输出词频

#制作词云
wordcloud2(seg,size=0.5,color = "random-light")

其中数据清洗过程注释掉了一行，有进候我们不需要某些词进入词云，这时可以取消注释，对其中的关键词进行修改后，再重新运行，输出的词云图就没有这个词了。

这里是选取了词频前50的词绘制词云，这个参数也可以根据需要进行修改。

AhaBob

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何使用R语言制作词云

关于wordcold2函数的用法不再赘述，查以使用help(wordcloud2)查看有关帮助，其中的参数是不难理解的，可以运行一下帮助文档的示例（Examples），体会一下其中的用法。其中数据清洗过程注释掉了一行，有进候我们不需要某些词进入词云，这时可以取消注释，对其中的关键词进行修改后，再重新运行，输出的词云图就没有这个词了。在实际的数据分析中，我们常常需要把一段文字进行词云的制作，这个时候首先要行分词，接下来要统计词频，对其中的词语进行清洗，最后绘制词云。
复制链接

扫一扫