中文分词免费源码资源

1。http://www.chinesecomputing.com/nlp/segment.html

此链接介绍了很多分词资源。注意看其第二项(A Simplified Chinese Segmenter written in Perl )。里面有Perl和Java版的简体中文分词程序,完全free。我试了一下,效果不错。网上很多人向Lucene中添加中文分词时用的都是中科院ICTCLAS的接口。而中科院的ICTCLAS本身使用c++开发,所以用JNI给包装起来之后,当分词时就问题百出,非常不稳定。当时我做实验室的一个小DD用的也是这个接口,是北师大陈天封装,分词会经常出问题,当然责任不在陈天。我也专门就如何在Lucene中添加中文分词程序写过一篇文章,介绍如何在Lucene中使用ICTCLAS添加中文分词。后来有很多读者给我发Email探讨这个问题,为什么他们的就有问题。其实我用时也有时会有问题。这里你可以使用我所推荐替代那个免费的而且不好用的用JNI封装的令人抓狂的ICTCLAS。

但是本人没有对多线程进行测试,只是顺便用了一下。哪位达人试过确实好用,一定不要忘了告诉我。

2。http://www.fajava.cn/products_01.asp

推荐您采用第三代智能分词系统3GWS(the 3rd Generation Word Segmenter)。据说是ICTCLAS3.0的商用版本。参见:http://www.fajava.cn/products_01.asp 提供Linux/Windows下的API,可以试用。这是Blog上别人留的言,我没有试过。

3  中文分词免费版 (Nice thing)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值