ChineseTokenizer 中文分词器,不过坏处是只能把词一个一个字的分开。
CJKTokenizer 也好不到哪里去 …..
CJKTokenizer 源码 :
ChineseTokenizer 例子:
输出:
(term= 我 ,startOffset=0,endOffset=1)
(term= 是 ,startOffset=1,endOffset=2)
(term=ha,startOffset=2,endOffset=4)
(term=ve,startOffset=5,endOffset=7)
(term= 中 ,startOffset=7,endOffset=8)
(term= 国 ,startOffset=8,endOffset=9)
(term= 人 ,startOffset=9,endOffset=10)
CJKTokenizer 例子:
输出:
(term= 我是 ,startOffset=0,endOffset=2,type=double)
(term= 是一 ,startOffset=1,endOffset=3,type=double)
(term= 一個 ,startOffset=2,endOffset=4,type=double)
(term=ha,startOffset=4,endOffset=6,type=single)
(term=ve,startOffset=7,endOffset=9,type=single)
(term= 頂天 ,startOffset=9,endOffset=11,type=double)
(term= 天立 ,startOffset=10,endOffset=12,type=double)
(term= 立地 ,startOffset=11,endOffset=13,type=double)
(term= 地的 ,startOffset=12,endOffset=14,type=double)
(term= 的中 ,startOffset=13,endOffset=15,type=double)
(term= 中國 ,startOffset=14,endOffset=16,type=double)
(term= 國人 ,startOffset=15,endOffset=17,type=double)