改动下ICTCLAS4J 0.9.1 提供了分词速度

 

改动下ICTCLAS4J 0.9.1,简化代码并做了一个提高了性能的不死机的DOS 命令segtag.bat
ICTCLAS4J_0.9.1 是中科院张华平的分词系统的Java 版,改版作者Sinboy,发布在 http://code.google.com/p/ictclas4j/, 我改动了一下几个地方

1. 对getNextElement采用建立临时索引的方式提高了几倍的分词速度
2. 注释了firstAdjust处的 index-- 和 index -= 2两句
3. 建立segtag.bat 方便处理文本文件

   现在对一个文本文件分词, 运行下列命令即可
        segtag < input_corpus.txt > output_segtaged.txt

  直接运行 segtag 
        那么自己输入语句,一回车就可以看到分词结果

4. 删除了使用Log4J的监控日志代码,删除了每一步骤耗用的时间信息输出,删除了图形界面代码,
只留下bin目录下的class文件,src目录下的Java 源代码,Data目录下的词典数据和SegTag.bat 简化了程序

下载可以在 http://groups.google.com/group/ictclas/web/ictclas4j.zip

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值