R语言做文本挖掘 Part2分词处理

最新推荐文章于 2023-06-08 23:58:41 发布

EchoCaiCai

最新推荐文章于 2023-06-08 23:58:41 发布

阅读量2.3w

点赞数 10

分类专栏： R语言相关

本文链接：https://blog.csdn.net/cl1143015961/article/details/44108143

版权

本文介绍了使用R语言进行文本挖掘的分词处理，包括RWordseg的使用，如分词、加词删词、安装卸载词典等操作。通过实例展示了对某品牌官微的分词处理，以及去除停词和制作词云的过程，揭示了品牌微博内容的主要特征。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Part2分词处理

【发现有人转载，决定把格式什么重新整理一遍，有时间做个进阶版文本挖掘，恩！原文地址：CSDN-R语言做文本挖掘 Part2分词处理】

在RStudio中安装完相关软件包之后，才能做相关分词处理，请参照Part1部分安装需要软件包。参考文档：玩玩文本挖掘，这篇文章讲用R做文本挖掘很详尽，并且有一些相关资料的下载，值得看看！

1. RWordseg功能

说明文档可在http://download.csdn.net/detail/cl1143015961/8436741下载，这里只做简单介绍。

分词

 segmentCN(c("如果你因为错过太阳而流泪", "你也会错过星星"))

[[1]]

[1] "如果""你" "因为" "错" "过" "太阳" "而"

[8] "流泪"

[[2]]

[1] "你" "也" "会" "错" "过" "星星"

可以看到分词的效果不是很理想，“错过”这是一个词却被分开了，说明词库中不存在这个词，所以，我们有时候需要向词库中添加我们需要的词语。

加词删词

insertWords("错过")
segmentCN(c("如果你因为错过太阳而流泪", "你也会错过星星"))

[[1]]

[1] "如果""你" "因为" "错过" "太阳" "而" "流泪"

[[2]]

[1] "你" "也" "会" "错过" "星星"

有些情况下，你不希望某个词被分出来，例如还是“错过”这个词，这里“错”和“过”语义上已经不应该是一个词语了，所以，可以从词典中删除这个词，再添加上你需要的词语，继续做分词，效果就好多了。

segmentCN("这个错过去你可以犯，但是现在再犯就不应该了")

[1] " 这个 " " 错过 " " 去 " " 你 " " 可以 " " 犯 " " 但是 "

[8] "现在" "再" "犯" "就" "不" "应该" "了"

deleteWords("错过")
insertWords("过去")
segmentCN("这个错过去你可以犯，但是现在再犯就不应该了")

[1] " 这个 " " 错 " " 过去 " " 你 " " 可以 " " 犯 " " 但是 "

[8] "现在" "再" "犯" "就" "不" "应该" "了"

安装卸载词典

在做分词处理时，可能会遇到一些比较精而专的文章，专业词汇在词库里面并没有，这时候就需要去找相关的词典