R语言文本分析篇

参考:http://blog.sina.com.cn/s/blog_403aa80a01018pkn.html

1.加载软件包:

1.1数据预处理包:

Snowball(处理带空格的语句)
rJava(rmmseg4j的支持包)
rmmseg4j(处理中文的分词,把不带空格的分为带空格的。)

1.2文本分析包:

tm
 

2. 数据处理

library (RODBC)
excel_file <-odbcConnectExcel("D:\\r\\lab\\tm\\data\\处理实例.xls")
sheet_data <-sqlFetch(excel_file,"data")
close (excel_file)
 
library (Snowball)
library (rJava)
library (rmmseg4j)
library (tm)
tmp <- as.character(sheet_data[[3]])
pinglun<-tmp[which(tmp!="")]#删除无效数据
 
中文特色,空格分词
a<-mmseg4j(pinglun[1]);a     #分词,添加空格
b<-unlist(strsplit(a," "));b #使用空格把字符串分为list
pinglun<-mmseg4j(pinglun)#空格视为一个单词,所以中文很吃亏,需要先分词。否则可能会把一句话视为一个单词(DocumentTermMatrix出现错误结果)
 
建立语义库
ovid <-Corpus(VectorSource(pinglun))#由于pinglun是向量,所以要使用VectorSource
#ovid <-Corpus(DataframeSource(as.data.frame(pinglun)))#由于pinglun是向量,所以要转化为data.frame后再使用DataframeSource
#还可以读取目录DirSource参数,读取目录中的不同txt文件(实际后文writeCorpus(ovid)也会产生n个txt)
#完成后,会创建length(pinglun)个 text documents。
 
查看建立的语义库
inspect(ovid)
保存ovid,在工作目录中写入length(pinglun)个txt文本,每个文本包含一个document
writeCorpus(ovid)
 
使用语义库做后续处理
去掉多余空白
ovid <- tm_map(ovid, stripWhitespace)
去掉停止词,未成功???
ovid<- tm_map(ovid, removeWords,)
 
创建词条 -文档关系矩阵
dtm <- DocumentTermMatrix(ovid)
inspect(dtm[1:5,100:105])
 
对矩阵进行处理
#找到在“5个以上的不同文档”中出现的词条:findFreqTerms(x, lowfreq = 0, highfreq =Inf)。
findFreqTerms(dtm, 5)
找到同vancl这个词条的相关系数在0.2以上的其他词条
findAssocs(dtm, "vancl",0.2)#如果欲比较的词条不在总dtm中,则返回错误,如果相关系数设置过高,则返回1
展示:
  vancl  优惠券  浏览器   google加减乘除  谁也不  chrome    vjia
   1.00    0.38    0.33    0.29    0.29    0.29    0.20    0.20
删除稀疏词条(removed which have at least a sparse percentage of empty)
dtm_099<-removeSparseTerms(dtm, 0.99)
返回新词条(原有词条dtm不变),其中删除了“出现词条的文档数目占总文档数目”小于1%(1-0.99=0.01=1%)的(稀疏)词条。
验证:length(which(inspect(removeSparseTerms(dtm,0.99)[,i])==1))/4275一定大于0.01,其中i=1--
 
使用字典提取dtm
d <- Dictionary(c("不满意", "不值得", "不知道"))
dtm_d<-DocumentTermMatrix(ovid, list(dictionary =d))#dtm_d中只提取了字典(d)中包含的词条。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值