Lucene下分词工具的学习探讨

ACM的征途以很悲剧的方式收尾了!接下来就应该全力转向Lucene的学习了,研究怎么用Lucene把人名聚类这个东西做好,作为我的毕业设计。

今天一天学习的东西不多,除了看《Lucene实战》第20页的程序,就是研究Java版本的开源分词器了!

在网上找到了两种分词器,ansjimdict,本质上没有什么区别,都是用采用ICTCLAS的核心。个人觉得ansj要更好一些,主要是学习的案例要多一些,好学一点。Imdict称能在Lucene中调用,而且分词的速度挺快的,但是貌似不支持人名识别!

Ansj就相当了不起了,感觉虽然由于加词典的缘故,速度慢了点,但是跟用C++版本的ICTCLAS一样,能进行实体识别。

Java版分词器的学习博客为:

http://www.blogjava.net/zhenandaci/archive/2008/09/21/230269.html

Imdict的下载网址为:http://code.google.com/p/imdict-chinese-analyzer/

Ansj项目有一篇博文很值得一看:开源 Java 中文分词器 Ansj 作者孙健专访

http://www.iteye.com/magazines/102

Ansj的下载地址为:https://github.com/ansjsun/ansj_seg

那么这两种分词器怎么来用呢?

先说imdict, 先到下载地址下载imdict-chinese-analyzer-java5.zip,然后解压。把解压后的项目导入eclipse中就OK了!截图如下:

需要注意一下就是下载到的chinese-analyzer是没有lib文件夹及lucene-core-2.4.1.jar文件的,需要我们自己创建。运行的结果看test包下TestSmartChineseAnalyzer就可以了!

 

再看ansj的应用,我直接自己新建立一个Project,然后把下载到的ansj_seg-master.zip文件夹解压,把解压包里面的相关文件及文件夹copyProject下面,截图如下:


所有的演示案例都在src源文件夹下了!其功能之丰富让人惊叹!

这两个项目都是在

Eclipse Java EE IDE for Web Developers.

Version: Indigo Release

Build id: 20110615-0604

下面编译运行的,选择的工作编码是utf-8,而不是默认的GBK了!

lucene_01项目的下载地址:http://down.51cto.com/data/598960

chinese_analyzer项目的下载地址:http://down.51cto.com/data/598961

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值