介绍下我使用的分词包:Rwordseg。
摸索了下如何安装词典,相信不少人有这个需求。我整理下,非常的简单。当然这只针对我个人而言,新手一枚,可能有某位大神有更好的方法。
1、词典准备
直接新建一个txt的文件,将词典写入这个文档,格式最好如下:
我因为个人需要保存为dep.txt。路径任意,为了方便,我是放在我的工作目录下的(所以等会安装路径不需要写上d:\path之类的)。
2、开始安装
–加载Rwordseg包
library(Rwordseg)
–安装命令(dictpath可以指定自己的安装路径)
installDict(dictpath = “dep.txt”,dictname = “dep”,dicttype = “text”,load = “TRUE”)
提示:New dictionary ‘dep’ was installed!
安装完成后记得重启RStudio或者RGui。就是重启下环境
开始测试分词,因为我的词典里有”食品药品监管局“:
words <- “食品药品监管局是什么地方”
words_seg <- segmentCN(words)
打印出word_seg为:
“食品药品监管局” “是” “什么” “地方”
识别”食品药品监管局“成功!
3、也可以查看下已安装词典
使用命令:listDict()
输出:
Name Type Des
1 dep Text dep.txt