R语言做文本挖掘 Part2分词处理

Part2分词处理

【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part2分词处理

在RStudio中安装完相关软件包之后,才能做相关分词处理,请参照Part1部分安装需要软件包。参考文档:玩玩文本挖掘,这篇文章讲用R做文本挖掘很详尽,并且有一些相关资料的下载,值得看看!

1.       RWordseg功能

说明文档可在http://download.csdn.net/detail/cl1143015961/8436741下载,这里只做简单介绍。

分词

 segmentCN(c("如果你因为错过太阳而流泪", "你也会错过星星"))
[[1]]

[1] "如果"""   "因为" ""   ""   "太阳" "

[8] "流泪"

[[2]]

[1] ""   ""   ""   ""   ""   "星星"

可以看到分词的效果不是很理想,“错过”这是一个词却被分开了,说明词库中不存在这个词,所以,我们有时候需要向词库中添加我们需要的词语。

加词删词

insertWords("错过")
segmentCN(c("如果你因为错过太阳而流泪", "你也会错过星星"))
[[1]]

[1] "如果"""   "因为" "错过" "太阳" ""   "流泪"

[[2]]

[1] ""   ""   ""   "错过" "星星"

有些情况下,你不希望某个词被分出来,例如还是“错过”这个词,这里“错”和“过”语义上已经不应该是一个词语了,所以,可以从词典中删除这个词,再添加上你需要的词语,继续做分词,效果就好多了。

segmentCN("这个错过去你可以犯,但是现在再犯就不应该了")
 [1] " 这个 " " 错过 " " "   " "   " 可以 " " "   " 但是 "

 [8] "现在" ""   ""   ""   ""   "应该" "

deleteWords("错过")
insertWords("过去")
segmentCN("这个错过去你可以犯,但是现在再犯就不应该了")
 [1] " 这个 " " "   " 过去 " " "   " 可以 " " "   " 但是 "

 [8] "现在" ""   ""   ""   ""   "应该" ""

安装卸载词典

在做分词处理时,可能会遇到一些比较精而专的文章,专业词汇在词库里面并没有,这时候就需要去找相关的词典

  • 10
    点赞
  • 68
    收藏
    觉得还不错? 一键收藏
  • 37
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 37
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值