之前,我写过一篇关于Rwordseg包的分词,链接为:http://blog.csdn.net/wzgl__wh/article/details/52528925
今天,我主要想谈谈自己对jiebaR这个包。现在我也比较推荐使用jiebaR这个包,原因也大概总结了一下几点。
|
JiebaR |
Rwordseg |
函数数量 |
51个 |
9个 |
更新速度 |
快,cran最新版更新于2016-09-28 |
慢,R-Forge最新版更新于2013-12-15 |
安装难度 |
容易 |
难,需要安装java。 |
分词引擎 |
多 |
只有一种(隐马尔科夫模型) |
(个人观点,还望大家在留言区补充)
一、分词
首先,我们来看一下jiebaR里面最重要的一个函数worker函数,通过它,我们可以设置一些分词类型,用户词典,停用词等等。函数原型为:
worker(type = "mix", dict = DICTPATH, hmm = HMMPATH, user = USERPATH,
idf = IDFPATH, stop_word = STOPPATH, write = T, qmax = 20, topn = 5,
encoding = "UTF-8", detect = T, symbol = F, lines = 1e+05,
output = NULL, bylines = F, user_weight = "max")
现在来说说每个参数的作用。
参数 |
作用 |
type |
指分词引擎类型,这个包包括mix, mp, hmm, full, query, tag, simhash, keyword,分别指混合模型,支持最大概率,隐马尔科夫模型,全模式,索引模型,词性标注,文本Simhash相似度比较,关键字提取。 |
dict |
词库路径,默认为DICTPATH. |
hmm |
用来指定隐马尔可夫模型的路径,默认值为DICTPATH,当然也可以指定其他分词引擎 |
user |
用户自定义的词库 |
idf |
用来指定逆文本频率指数路径,默认为DICTPATH,也可以用于simhash和keyword分词引擎 |
stop_word |
用来指定停用词的路径 |
qmax |
词的最大查询长度,默认为20,可用于quer |