LUCENE3.0 自学吧 6 中文分词

ChineseTokenizer 中文分词器,不过坏处是只能把词一个一个字的分开。

CJKTokenizer 也好不到哪里去 …..

CJKTokenizer 源码 :

 

ChineseTokenizer 例子:

 

输出:

(term= ,startOffset=0,endOffset=1)

(term= ,startOffset=1,endOffset=2)

(term=ha,startOffset=2,endOffset=4)

(term=ve,startOffset=5,endOffset=7)

(term= ,startOffset=7,endOffset=8)

(term= ,startOffset=8,endOffset=9)

(term= ,startOffset=9,endOffset=10)

 

 

CJKTokenizer 例子:

 

 

输出:

(term= 我是 ,startOffset=0,endOffset=2,type=double)

(term= 是一 ,startOffset=1,endOffset=3,type=double)

(term= 一個 ,startOffset=2,endOffset=4,type=double)

(term=ha,startOffset=4,endOffset=6,type=single)

(term=ve,startOffset=7,endOffset=9,type=single)

(term= 頂天 ,startOffset=9,endOffset=11,type=double)

(term= 天立 ,startOffset=10,endOffset=12,type=double)

(term= 立地 ,startOffset=11,endOffset=13,type=double)

(term= 地的 ,startOffset=12,endOffset=14,type=double)

(term= 的中 ,startOffset=13,endOffset=15,type=double)

(term= 中國 ,startOffset=14,endOffset=16,type=double)

(term= 國人 ,startOffset=15,endOffset=17,type=double) 

   

   

   

   

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值