Part2分词处理
【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part2分词处理】
在RStudio中安装完相关软件包之后,才能做相关分词处理,请参照Part1部分安装需要软件包。参考文档:玩玩文本挖掘,这篇文章讲用R做文本挖掘很详尽,并且有一些相关资料的下载,值得看看!
1. RWordseg功能
说明文档可在http://download.csdn.net/detail/cl1143015961/8436741下载,这里只做简单介绍。
分词
segmentCN(c("如果你因为错过太阳而流泪", "你也会错过星星"))
[[1]]
[1] "如果""你" "因为" "错" "过" "太阳" "而"
[8] "流泪"
[[2]]
[1] "你" "也" "会" "错" "过" "星星"
可以看到分词的效果不是很理想,“错过”这是一个词却被分开了,说明词库中不存在这个词,所以,我们有时候需要向词库中添加我们需要的词语。
加词删词
insertWords("错过")
segmentCN(c("如果你因为错过太阳而流泪", "你也会错过星星"))
[[1]]
[1] "如果""你" "因为" "错过" "太阳" "而" "流泪"
[[2]]
[1] "你" "也" "会" "错过" "星星"
有些情况下,你不希望某个词被分出来,例如还是“错过”这个词,这里“错”和“过”语义上已经不应该是一个词语了,所以,可以从词典中删除这个词,再添加上你需要的词语,继续做分词,效果就好多了。
segmentCN("这个错过去你可以犯,但是现在再犯就不应该了")
[1] "
这个
" "
错过
" "
去
" "
你
" "
可以
" "
犯
" "
但是
"
[8] "现在" "再" "犯" "就" "不" "应该" "了"
deleteWords("错过")
insertWords("过去")
segmentCN("这个错过去你可以犯,但是现在再犯就不应该了")
[1] "
这个
" "
错
" "
过去
" "
你
" "
可以
" "
犯
" "
但是
"
[8] "现在" "再" "犯" "就" "不" "应该" "了"
安装卸载词典
在做分词处理时,可能会遇到一些比较精而专的文章,专业词汇在词库里面并没有,这时候就需要去找相关的词典