R语言-文本挖掘例子

原创 2015年11月18日 10:24:52

以总理2015报告原文进行挖掘处理,先将报告内容保存为TXT格式文本。

需要的包:rJava,Rwordseg,wordcloud。

library(rJava)

library(Rwordseg)

library(wordcloud)

1、读入文本数据

mydata<-read.csv("D:/test/R/report2015.txt", stringsAsFactors=FALSE,header=FALSE)

2、中文分词

txt<-segmentCN(as.character(mydata$V1))

3、将列表转换为向量

txt.aslist<-unlist(txt)

4、词语统计

txt.freq<-table(txt.aslist)

5、频数排序

txt.result<-txt.freq[order(-txt.freq)]

6、画词云

wordcloud(names(txt.result),txt.result,random.order=FALSE)

7、取前100位画词云

 wordcloud(names(text.result)[1:100],text.result[1:100],random.order=FALSE)


如果要去除停止词,可使用下面的步骤:

8、使用去停止词

(1)导入停止词表

stopword<-read.csv('D:/test/R/stop-word.txt',stringsAsFactors=FALSE,header=FALSE)

(2)将data.frame类型数据转换为向量型数据

stopword.v<-as.vector(stopword$V1)

(3)去除词语统计中的停止词

word.pure<-setdiff(names(txt.result),stopword.v)

word.pure为去除停止词的统计分析对象词表。

(4)取出非停止词

txt.pure<-txt.result[word.pure]

(5)画词云

wordcloud(names(txt.pure)[1:100],txt.pure[1:100],random.order=FALSE)




注意:

对table对象 ta,

dimnames(ta) 结果为list型

names(ta)结果为向量型。

版权声明:本文为博主原创文章,未经博主允许不得转载。

文本挖掘实例

文本挖掘 junjun 2016年2月4日 文本分析的应用越来越广泛,今天就讲讲关于评论数据的那点事。 评论数据的获取:一般通过网络爬虫的方式抓取各大网站的评论数据,本次分...

R语言做文本挖掘

tm包是R语言中为文本挖掘提供综合性处理的package,进行操作前载入tm包,vignette命令可以让你得到相关的文档说明。本文从数据导入、语料库处理、预处理、元数据管理、创建term-docum...

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

R之文本挖掘

中文及英文的文本挖掘——R语言 所需要的包tm(text mining) rJava,Snowball,zoo,XML,slam,Rz, RWeka,matlab 1  文本挖掘概要 文本挖掘是...

用R实现文本挖掘

互联网公司一般都有质量审核部门,这些部门专门查找违禁帖子,但网站帖子量成千上万,如何快速的查找到违禁帖子,想到的一个办法就是通过数据模型(分类算法)来解决这个问题,对帖子文本进行分析,建立数据模型,甄...

R语言做文本挖掘 Part3文本聚类

Part3文本聚类 分类和聚类算法,都是数据挖掘中最常接触到的算法,分类聚类算法分别有很多种。可以看下下面两篇文章对常见的分类聚类算法的简介: 分类算法:http://blog.csdn.net/...

R语言做文本挖掘 Part2分词处理

Part2分词处理 在RStudio中安装完相关软件包之后,才能做相关分词处理,请参照Part1部分安装需要软件包。 1.       RWordseg功能 说明文档可在http://downlo...

R语言做文本挖掘 Part4文本分类

Part4文本分类 Part3文本聚类里讲到过,分类跟聚类的简单差异。所以要做分类我们需要先整理出一个训练集,也就是已经有明确分类的文本;测试集,可以就用训练集来替代;预测集,就是未分类的文本,是...

【R语言】文本挖掘-情感分析

先占个坑,周末习题 http://www.tuicool.com/articles/amaY3iz http://download.csdn.net/detail/hfutxrg/1063945...

用R做中文文本分析--用R进行文本挖掘与分析:分词、画词云

#调入分词的库 library("rJava") library("Rwordseg") #调入绘制词云的库 library("RColorBrewer") library("wordclo...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:R语言-文本挖掘例子
举报原因:
原因补充:

(最多只允许输入30个字)