Paoding分词_庖丁分词_以及使用于_lucene_solr

在几个中文分词中,决定用paoding庖丁分词。

记录使用的一些问题和思路,慢慢更新。

 

与Lucene和Solr的结合及版本

待续

 

 

paoding分词的辞典定制

我的环境ubuntu,win下没有测试.

辞典路径配置:

#1 paoding分词会优先找系统变量export PAODING_DIC_HOME作为辞典目录

#2 如果没有,则找类目录下的文件paoding-dic-home.properties

       这个文件里配置了辞典目录和目录配置方式,看注释就行

自己添加辞典:

在辞典目录下,有很多目录,比如local/division等,可以改动并添加自己的词;

自己可以添加文件夹和文件,文件命名为xxx.dic;xxx.dic里可以添加自己应用的辞典;

辞典不起作用?

Paoding会预编译辞典,生成.compiled文件夹;

自己添加的辞典,如果想立即生效,需要删除此文件夹;[其实这还不是本质,但先说到这里;可以去看源码]

 

另外注意:
   1.每次词典修改后,要删掉dic下面的“.compiled ”文件夹,重起solr所在服务器
   2.字典必须是UTF-8编码
   3.win下不要用记事本打开

   4.自己添加的字典中的词语不要太长(我忘记多少长度了),否则会报错:ArrayOutOfBounds

       paoding 报错 Array Out Of Bounds

 

paoding分词的优缺点评述

待续

 

 

 

paoding分词团队及社区开源软件的评述(仅仅为个人之见 --作者别砸我哈

#1 文档不太好

其实是基本没有文档,这一点跟国外的或者说标准的开源项目有很大的差别;

看看Apache上的项目,连tutorial都很详细;

#2 测试做的不太好

基本没有完整的unit测试,这样造成的问题是不能持续集成,一个人修改了一个bug,结果引入了另外几个bug;

#3 社区不太好

应该说结构和团队组织不太好,造成想加入没能加入,问题没人回答,成了一个冷清的社区;

-->>当然,原因嘛,国内普遍的现象;谁有时间和精力免费花在这个开源上面呢~

-->>作者别砸我哈~

 

 

O

O

O

 

O

O

O

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值