R语言-文本挖掘例子

原创 2015年11月18日 10:24:52

以总理2015报告原文进行挖掘处理,先将报告内容保存为TXT格式文本。

需要的包:rJava,Rwordseg,wordcloud。

library(rJava)

library(Rwordseg)

library(wordcloud)

1、读入文本数据

mydata<-read.csv("D:/test/R/report2015.txt", stringsAsFactors=FALSE,header=FALSE)

2、中文分词

txt<-segmentCN(as.character(mydata$V1))

3、将列表转换为向量

txt.aslist<-unlist(txt)

4、词语统计

txt.freq<-table(txt.aslist)

5、频数排序

txt.result<-txt.freq[order(-txt.freq)]

6、画词云

wordcloud(names(txt.result),txt.result,random.order=FALSE)

7、取前100位画词云

 wordcloud(names(text.result)[1:100],text.result[1:100],random.order=FALSE)


如果要去除停止词,可使用下面的步骤:

8、使用去停止词

(1)导入停止词表

stopword<-read.csv('D:/test/R/stop-word.txt',stringsAsFactors=FALSE,header=FALSE)

(2)将data.frame类型数据转换为向量型数据

stopword.v<-as.vector(stopword$V1)

(3)去除词语统计中的停止词

word.pure<-setdiff(names(txt.result),stopword.v)

word.pure为去除停止词的统计分析对象词表。

(4)取出非停止词

txt.pure<-txt.result[word.pure]

(5)画词云

wordcloud(names(txt.pure)[1:100],txt.pure[1:100],random.order=FALSE)




注意:

对table对象 ta,

dimnames(ta) 结果为list型

names(ta)结果为向量型。

版权声明:本文为博主原创文章,未经博主允许不得转载。

R语言做文本挖掘 Part3文本聚类

Part3文本聚类 分类和聚类算法,都是数据挖掘中最常接触到的算法,分类聚类算法分别有很多种。可以看下下面两篇文章对常见的分类聚类算法的简介: 分类算法:http://blog.csdn.net/...
  • cl1143015961
  • cl1143015961
  • 2015年03月16日 20:54
  • 7141

R语言做文本挖掘 Part2分词处理

Part2分词处理 在RStudio中安装完相关软件包之后,才能做相关分词处理,请参照Part1部分安装需要软件包。 1.       RWordseg功能 说明文档可在http://downlo...
  • cl1143015961
  • cl1143015961
  • 2015年03月06日 23:57
  • 11701

R语言之文本挖掘

文本挖掘涉及到知识有:贝叶斯,朴素贝叶斯、分词算法。 贝叶斯公式: P(H|X) = P(X|H)P(H)/P(X) 解释:X代表词,H代表是否是垃圾邮件,P(H|X)代表出现X次是垃圾...
  • zhf1234abc
  • zhf1234abc
  • 2015年08月22日 21:25
  • 258

文本挖掘深度学习之word2vec的R语言实现

笔者寄语:2013年末,Google发布的 word2vec工具引起了一帮人的热捧,大家几乎都认为它是深度学习在自然语言领域的一项了不起的应用,各种欢呼“深度学习在自然语言领域开始发力 了”。 基于...
  • u011955252
  • u011955252
  • 2017年04月23日 13:46
  • 1112

R语言︱文本挖掘——词云wordcloud2包

笔者看到微信公众号探数寻理中提到郎大为Chiffon老师的wordcloud2,于是尝鲜准备用一下。但是在下载的时候,遇见很多问题,安装问题困扰着。。。 包中函数本身很好用,很简单,而且图形众多。 ...
  • sinat_26917383
  • sinat_26917383
  • 2016年06月09日 11:15
  • 22946

用R实现文本挖掘

互联网公司一般都有质量审核部门,这些部门专门查找违禁帖子,但网站帖子量成千上万,如何快速的查找到违禁帖子,想到的一个办法就是通过数据模型(分类算法)来解决这个问题,对帖子文本进行分析,建立数据模型,甄...
  • u011454283
  • u011454283
  • 2016年02月04日 10:23
  • 2035

用R做中文文本分析--用R进行文本挖掘与分析:分词、画词云

#调入分词的库 library("rJava") library("Rwordseg") #调入绘制词云的库 library("RColorBrewer") library("wordclo...
  • wangishero
  • wangishero
  • 2016年09月18日 06:00
  • 2283

文本挖掘实例

文本挖掘 junjun 2016年2月4日 文本分析的应用越来越广泛,今天就讲讲关于评论数据的那点事。 评论数据的获取:一般通过网络爬虫的方式抓取各大网站的评论数据,本次分...
  • qq_16365849
  • qq_16365849
  • 2016年02月04日 15:44
  • 3059

R语言文本挖掘之jieba分词与wordcloud展现

引言由于语言的特殊性,中文在进行文本挖掘时需要进行分词,R中对中文分词支持较好的有jiebaR包(快速指南)和李键大哥的RWordseg包,从自己使用情况来看,jiebaR分词的效果要更好一些,本文就...
  • zx403413599
  • zx403413599
  • 2015年07月02日 20:35
  • 8328

R语言做文本挖掘

tm包是R语言中为文本挖掘提供综合性处理的package,进行操作前载入tm包,vignette命令可以让你得到相关的文档说明。本文从数据导入、语料库处理、预处理、元数据管理、创建term-docum...
  • lanhongyun1201
  • lanhongyun1201
  • 2015年01月14日 14:03
  • 919
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:R语言-文本挖掘例子
举报原因:
原因补充:

(最多只允许输入30个字)