1、文本简介:
经爬虫得到的某电商网站某类商品的评论。使用wc进行字数统计:
$wc text.txt
0 121467 4694908
2、使用Rwordseg进行文本挖掘。
(1)使用R代码:
library(Rwordseg)
require(Rwordseg)
text <- readLines("text.txt") #输入
seg <- unlist(segmentCN(text)) #使用segmentCN进行分词
tag <- table(seg)
tbldf <- as.data.frame(tag)
freqord <- order(tbldf$Freq, decreasing=TRUE) #数据汇总 #见参考文献
final <- tbldf[freqord,][1:length(tag),] #最终结果
write.table(final, "final.csv", sep=",") #输出
(2)查看分词时间:
system.time(seg <- unlist(segmentCN(text)))
user system elapsed
21.074 0.149 20.594
可见,对约135万字的文本进行挖掘需要约20秒。(OS X 10.9, i7, 16G)
3、参考文献
代码中的数据汇总方法使用了Norman Matloff "The Art of R Programming" P134-136的方法。