[R语言]快速安装用户自定义词典——用于分词

介绍下我使用的分词包:Rwordseg。

摸索了下如何安装词典,相信不少人有这个需求。我整理下,非常的简单。当然这只针对我个人而言,新手一枚,可能有某位大神有更好的方法。

1、词典准备

直接新建一个txt的文件,将词典写入这个文档,格式最好如下:
这里写图片描述
我因为个人需要保存为dep.txt。路径任意,为了方便,我是放在我的工作目录下的(所以等会安装路径不需要写上d:\path之类的)。

2、开始安装

–加载Rwordseg包
library(Rwordseg)

–安装命令(dictpath可以指定自己的安装路径)
installDict(dictpath = “dep.txt”,dictname = “dep”,dicttype = “text”,load = “TRUE”)

提示:New dictionary ‘dep’ was installed!

安装完成后记得重启RStudio或者RGui。就是重启下环境

开始测试分词,因为我的词典里有”食品药品监管局“:

words <- “食品药品监管局是什么地方”

words_seg <- segmentCN(words)

打印出word_seg为:

“食品药品监管局” “是” “什么” “地方”

识别”食品药品监管局“成功!

3、也可以查看下已安装词典

使用命令:listDict()

输出:

Name Type Des
1 dep Text dep.txt

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值