文本挖掘
文章平均质量分 61
金子哦
教师
展开
-
tm中使用Perl正则表达式秒杀stopwords
文本挖掘tm包中提供的removeWords函数可以清除stopwords,比如wordcloud包wordcloud函数说明档中的例子:data(crude)crude <- tm_map(crude, removePunctuation)crude 但如果文献内容很长,比如10M,运行时间会相当长。在应用tm_map之前使用Perl正则表达式能快速解决这个问题。命令可以整合到R原创 2015-11-18 16:33:41 · 1796 阅读 · 0 评论 -
tm/wordcloud合并变形词
在文本挖掘中,合并变形词的词频是很必要的。虽然步骤较简单,但很多人都没有注意。下面比较一下合并跟不合并的差别:library("tm")library("wordcloud")data(crude)crude tm_map(crude, removePunctuation)crude tm_map(crude, function(x) removeWords(x,原创 2015-11-19 11:07:29 · 1377 阅读 · 0 评论