search-engine
文章平均质量分 73
helld123
这个作者很懒,什么都没留下…
展开
-
中文分词
一,中文分词概述,请参考http://www.ppc110.com/search-engine.pdf二,mmseg,一个中文分词实现,转自:http://leeing.org/2009/11/01/mmseg-chinese-segmentation-algorithm/MMSEG 中文分词算法NOV 1ST, 2009 | COMMENTS由转载 2013-10-30 16:02:37 · 1151 阅读 · 0 评论 -
lucence小记
Lucene 优化Lucene 会为每一次addDocument(document) 是在索引库目录下新增一个文件".cfs"后缀的文件。 这意味我们的程序将便对越来越多的文件(但是默认情况下,最多也不会超过10个,当文件达到10个的时候,lucene 会将它们合并为一个大的文件)。意味着 IO 流的打开和关闭也将越来越多。这对效率的影响是比较大的。转载 2013-11-18 22:01:23 · 1028 阅读 · 0 评论