在中文全文索引中为了建立反向索
在lucene 1.3 以后的版本中支持中文建立索引了
这里主要对比以下3种中文切分对lucene 索引的影响。
第一种:默认的单字切分;
第二种:二元切分(见车东的文章);
第三种:按照词义切分(使用小叮
上面3种切分的效果如下:
原句:"搜索引擎的发展历史证明,没有做
Lucene默认分词结果:
org.apache.luce
[搜] [索] [引] [擎] [的] [发] [展] [历] [史] [证] [明] [没] [有] [做] [不] [到] [只] [有] [想] [不] [到] [让] [人] [们] [更] [方] [便] [准] [确] [的] [获] [取] [信] [息] [是] [搜] [索] [引] [擎] [的] [使] [命]
二元切分结结果:
org.apache.luce
[搜索] [索引] [引擎] [擎的] [的发] [发展] [展历] [历史] [史证] [证明] [没有] [有做] [做不] [不到] [到只] [只有] [有想] [想不] [不到] [让人] [人们] [们更] [更方] [方便] [便准] [准确] [确的] [的获] [获取] [取信] [信息] [息是] [是搜] [搜索] [索引] [引擎] [擎的] [的使] [使命]
小叮咚切分结果:
org.apache.luce
[搜索] [引擎] [的] [发展] [历史] [证明] [有] [做] [不到] [只有] [想] [不到] [人们] [更] [方便] [准确] [的] [获取] [信息] [是] [搜索] [引擎] [的] [使命]
在Lucene索引中,最小的索引单位是Token。基本上可以这样理解Token,在英文中Token是一个单词,在汉语中是不同切分
我的测试数据:
今天各大网站和blog的新闻,包括经济、政治、教育、
经过Lucene生成索引后的统计信息如下:
单字切分:
单字切分的前15个Term
词义切分:
词义切分的前15个Term
通过上面的对比可以看出: 单字切分的Term要比词义切分的Term少。原因很明显,汉语中常用的字大
从直觉观察来看,索引文件中的Term越多,搜索结果也越快,搜索的相
另外一个有意思的情况是索引文件
在我得测试数据大概80K大小的时候,上面的两种方法产生
上面的测试数据中没有过滤常用的