solr中文分词

我在solr中尝试了以下三种开源中文分词器,其中两种都因为solr版本过高不能用,郁闷,后来将JAR包反编译,找到了原因,下面先简要说明一下三种开源中文分词器

 

庖丁解牛:google code上最后一次代码提交是2008.6月,不是很活跃,但用的人还很多

mmseg4j:google code上最后一次代码提交是2010.12月,应该还算活跃,采用MMSeg算法,有两种分词方法:Simple和Complex

IKAnalyzer:最近很活跃,2011.3月在google code上提交了一个版本

 

lucene于今年5月份出了3.2版,solr也对应出了3.2版,高版本有个不好的地方,就是开源的中文分词库,跟不上相应的更新速度,本人用的是3.1 版,在lucene中加入庖丁解牛中文分词器和IKAnalyzer最新版,都会报错。

 

错误原因如下(以IKAnalyzer为例说明):

不论是庖丁解牛还是IKAnalyzer,要把分词器放到solr中,需要经承solr中的BaseTokenizerFactory这个类,

这个基类中实现TokenizerFactory接口,create就定义在这个接口中,但返回的类型是Tokenizer,而在solr3.1版本中Tokenizer是继承TokenStream的,所以这里需要强制转换才不会报错。而庖丁解牛就没那么简单了,需要修改源码才可以,庖丁解牛现在只支持到solr1.4版本

 

还有庖丁解牛都不能直接在lucene3.1中使用,代码不提示任何错误,但一运行就报错,不知道为什么原因,估计原因同上,需要修改源代码,有知道的,请转告

 

mmseg4j也要下最新版本,否则也会报错,具体配置如下:

把 mmseg4j-all-1.8.4.jar 放到 tomcat/webapps/solr/lib下,mmseg4j1.84包中的字典解压出来,放在solr.home/data目录下,修改solr配置文件:

mmseg4j 在 solr 中主要支持两个参数:mode、dicPath。mode 表示是什么模式分词。dicPath 是词库目录,网上说可以默认在当前data目录下寻找,经测试好像不行,必须人工给出绝对路径,或许是高版本的问题吧,或许是我哪里设置错了,然后在 http://localhost:8080/solr/admin/analysis.jsp 可以看 mmseg4j 的分词效果,在Field的下拉菜单选择type,然后输入textComplex,特别是和CJK分词器作对比,很明显,CJK是solr官方自带的支持中日韩的分词器,它对中文是采用的二元分词

 

 

其实中文分词一直以来是很多人在研究的东西,怎么提高分词效率和匹配正确率是目标,里面的算法实现是它的核心,把它完全吃透,估计都可以写论文了,呵呵,由于时间有限,只是粗略拿来体验了一下。还有就是关于solr/lucene的搜索效率,优化索引,也是一个值得研究的课题。

 

参考资料:

1.http://blog.chenlb.com/2009/04/solr-chinese-segment-mmseg4j-use-demo.html

2.http://lianj-lee.iteye.com/blog/464364

3.http://www.blogjava.net/RongHao/archive/2007/11/06/158621.html

4.http://www.iteye.com/news/9637

5.http://blog.csdn.net/foamflower/archive/2010/07/09/5723361.aspx

突然发现IKAnalyzer在3.1.5版本中,已经实现了对solr的TokenizerFactory接口配置的支持,详见下面这篇文章:

http://linliangyi2007.iteye.com/blog/501228

 

庖丁解牛分词器支持Lucene3.0.2,需要修改源代码:

http://blog.csdn.net/foamflower/archive/2010/07/09/5723361.aspx

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值