搜索结果词频可视化: R语言wordcloud(词云图)

 先上成品图,观摩一下。

对一段文字做词频统计,然后根据词频做成词云图,途中文字大小与词频成正比。

结果实际上是一个交互html文件,也可输出为图形。

 上代码

library(wordcloud2)
library(dplyr)

filePath = "COVID1.txt"    #搜索结果存为txt
text = readLines(filePath)
txt = text[text!=""]       #校验是否为空文件

txt<-iconv(txt,"WINDOWS-1252","UTF-8")  #转码
txt = tolower(txt)
txtList = lapply(txt, strsplit," ")
txtChar = unlist(txtList)

#清洗数据
txtChar = gsub("\\.|,|\\!|:|;|\\?|(|)","",txtChar) #去除常见符号(.,!:;?)
#txtChar<-gsub("[^a-zA-Z]"," ",txtChar)
txtChar = txtChar[txtChar!=""]

data = as.data.frame(table(txtChar))
data$txtChar<-as.character(data$txtChar)
data<-data[-which(nchar(data[,1])<=2),]            #过滤长度<=2的单词
colnames(data) = c("Word","freq")
ordFreq = data[order(data$freq,decreasing=T),]     #词频排序

#过滤常见词
filePath = "filter200.csv"                          #常用虚词列表              
df = read.csv(filePath,header = T)
Word = select(df,Word)
antiWord = data.frame(Word,stringsAsFactors=F)
result = anti_join(ordFreq,antiWord,by="Word") %>% arrange(desc(freq)) #取差集
head(result)
wordcloud2(data = result)

 想要 常用过滤词文件 filtere200.csv 的同学,请回复,楼主发免费下载链接。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值