文本挖掘——词云图的操作

本文介绍了使用R语言进行文本挖掘的过程,包括自定义词库的装载以确保准确分词,如“中国电信”,以及通过Rwordseg和tm包建立语料库并删除停用词。在数据清洗后,通过建立TDM矩阵进行内容分析,最后生成词云图。遇到的问题包括文件大小导致的处理延迟和自定义词库的添加。
摘要由CSDN通过智能技术生成

 弄了两天,今天看了一篇博文才有点搞的明白,第一天看了Rwordseg包,这个包可把我整惨了,安装它都使出吃奶的劲了,我怎么觉得还没安装到位。如果想安装的话请参考《Rwordseg使用说明》,李舰写的,也是个大牛。比较详细介绍了Rwordseg的使用。第二天看了第二篇文章《玩玩文本挖掘-wordcloud、主题模型与文本分类》,这个家伙也不好看,讲的啰里啰嗦的。用个简单的例子就行了呗,非得用个复杂的(我认为的),而且还用到python,我只能说,cao。把我搞得稀里糊涂的,最后搜了挖掘机1990(在此感谢挖掘机1990的博文)。看的明白一点。现在还有两块没看完。文本挖掘的另一个包tm少不了,现在还没详细看。现在的主要问题就在文本的分词和词频的统计,这两个做好,画出词云图就简单了。现在觉得,一个人学习R语言太艰苦了,没资料,没视频的,错了自己调试调试再调试,宝宝心里苦啊!好了,闲话少说,该干什么还得干什么,上程序。

library(Rwordseg)#载入分词包
library(tm) #载入文本挖掘包

分词

把要分析的文件,存为文本文件(txt后缀),放到某个目录

装载自定义词库

这里的自定义词库,是根据分析文件中的某些特殊用词,自己编写的一个词库文件,其实也是一个文本文件,每行一个词。为什么要装自定义词库勒,是为了准确进行分词。某些单词如果不设置为自定义词,那么分词的时候可能会分解成其他的词汇。比如"中国电信",如果不设置为自定义词,那么就会被分解为"中国电信";如果设置为自定义词,那么就会识别为一个词。

installDict(file.choose(),"mydict")#装载
listDict() #查看词典
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值