jiebaR中文分词，从入门到喜欢

最新推荐文章于 2022-04-28 18:55:07 发布

VIP文章王亨

最新推荐文章于 2022-04-28 18:55:07 发布

阅读量8.8k

点赞数 15

分类专栏： R语言 R语言

本文链接：https://blog.csdn.net/wzgl__wh/article/details/72036263

版权

之前，我写过一篇关于Rwordseg包的分词，链接为：http://blog.csdn.net/wzgl__wh/article/details/52528925

今天，我主要想谈谈自己对jiebaR这个包。现在我也比较推荐使用jiebaR这个包，原因也大概总结了一下几点。

	JiebaR	Rwordseg
函数数量	51个	9个
更新速度	快，cran最新版更新于2016-09-28	慢，R-Forge最新版更新于2013-12-15
安装难度	容易	难,需要安装java。
分词引擎	多	只有一种（隐马尔科夫模型）

（个人观点，还望大家在留言区补充）

一、分词

首先，我们来看一下jiebaR里面最重要的一个函数worker函数，通过它，我们可以设置一些分词类型，用户词典，停用词等等。函数原型为：

worker(type = "mix", dict = DICTPATH, hmm = HMMPATH, user = USERPATH,
  idf = IDFPATH, stop_word = STOPPATH, write = T, qmax = 20, topn = 5,
  encoding = "UTF-8", detect = T, symbol = F, lines = 1e+05,
  output = NULL, bylines = F, user_weight = "max")

现在来说说每个参数的作用。

参数	作用
type	指分词引擎类型，这个包包括mix, mp, hmm, full, query, tag, simhash, keyword,分别指混合模型，支持最大概率，隐马尔科夫模型，全模式，索引模型，词性标注，文本Simhash相似度比较，关键字提取。
dict	词库路径，默认为DICTPATH.
hmm	用来指定隐马尔可夫模型的路径，默认值为DICTPATH,当然也可以指定其他分词引擎
user	用户自定义的词库
idf	用来指定逆文本频率指数路径，默认为DICTPATH，也可以用于simhash和keyword分词引擎
stop_word	用来指定停用词的路径
qmax	词的最大查询长度，默认为20，可用于quer