R语言|文本挖掘应用|标签云

这篇博客探讨了如何使用R语言进行文本挖掘,通过jiebaR包进行分词和关键词提取,再借助wordcloud包创建标签云展示词频关系。首先,介绍如何读取数据源并进行分词处理,接着进行词频统计和排序,最后通过wordcloud函数绘制出标签云,以直观地显示高频词汇。
摘要由CSDN通过智能技术生成

虽然总有人对比python与R的实用性,但是作为数据分析的目标而言,工具不是重点,目标需求才是首要关注点,所以,今天尝试用R自带的一系列工具包来完成对于文本内容的挖掘,并利用标签云展示词频关系。

- 工具包
分词包jiebaR(类似于python中的jieba,但兼具标注,关键词提取以simhash等功能)
标签云包wordcloud

- 编程环境
R编译解释器
Rstudio(界面简洁,操作方便,集成大量实用功能)

- 挖掘展示过程
大体步骤分如下:
1.数据源的读入,整合并做分词

test <- readLines(“corpus.txt”, encoding = ‘UTF-8’)
mixseg = worker(stop_word = “stop_words.utf8”)
words = c()
for (i in test) {words = c(words, mixseg <= i)}

注:worker()函数建立分词环境,这里添加停用词路径,其他参数可使用?worker访问查看,将分割后的词语利用数组列表words存储;

2.数据频次统计,排序筛选,并制作数据帧data.frame

word = table(words)
word <- sort(word, decreasing = TRUE)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值