如何在jieba分词中加自定义词典_R-数据挖掘 | jiebaR 分词

779937d01572429938df1123051e6c03.png

一、jiebaR主要函数

43bc1b9aba2453deacc163b03d4ee9b1.png

1.worker():加载jiebaR库的分词引擎

worker(type = "mix", dict = DICTPATH, hmm = HMMPATH, user = USERPATH,
 idf = IDFPATH, stop_word = STOPPATH, write = T, qmax = 20, topn = 5,
 encoding = "UTF-8", detect = T, symbol = F, lines = 1e+05,
 output = NULL, bylines = F, user_weight = "max")
--------------------
## 参数解释
type, 引擎类型
dict, 系统词典
hmm, HMM模型路径
user, 用户词典
idf, IDF词典
stop_word, 关键词用停止词库
write, 是否将文件分词结果写入文件,默认FALSE
qmax, 最大成词的字符数,默认20个字符
topn, 关键词数,默认5个
encoding, 输入文件的编码,默认UTF-8
detect, 是否编码检查,默认TRUE
symbol, 是否保留符号,默认FALSE
lines, 每次读取文件的最大行数,用于控制读取文件的长度。大文件则会分次读取。
output, 输出路径
bylines, 按行输出
user_weight, 用户权重

jiebaR库提供了八种分词引擎:

混合模型(MixSegment)

四个分词引擎里面分词效果较好的类,使用最大概率法和隐式马尔科夫模型

最大概率法(MPSegment)

负责根据Trie树构建有向无环图和进行动态规划算法,是分词算法的核心

隐式马尔科夫模型(HMMSegment)

根据基于人民日报等语料库构建的HMM模型来进行分词,主要算法思路是根据(B,E,M,S)四个状态来代表每个字的隐藏状态,HMM模型由dict/hmm_model.utf8提供,分词算法即viterbi算法。

索引模型(QuerySegment)

先使用混合模型进行切词,再对于切出来的较长的词,枚举句子中所有可能成词的情况,找出词库里存在

标记模型(tag)

Simhash模型(simhash)

关键词模型(keywods)

FullSegment模型(Full)

2.分词语法:[]、<=和segment函数

jiebaR提供了3种分词语句写法:[]符号语法、<=符号语法、segment()函数,三者形式不同,但分词效果一样。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值