去重算法——SpotSig算法详解(转)

原帖地址:http://blog.sina.com.cn/s/blog_67914f2901019xdt.html   一、算法思想     对文档集合进行预处理,根据比较粗的一种划分方式将文档集合进行分类。只比较同一类中的文档,从而缩短比较时间,减少运算次数。 二、算法流程 ...

2014-02-28 18:02:54

阅读数 172

评论数 0

影响Lucene索引速度原因以及提高索引速度技巧

  原帖地址:http://www.cnblogs.com/gaoweipeng/archive/2009/10/16/1584503.html   MaxMergeDocs该参数决定写入内存索引文档个数,到达该数目后就把该内存索引写入硬盘,生成一个新的索引segment文件。所以该参...

2014-02-21 11:44:15

阅读数 44

评论数 0

提示
确定要删除当前文章?
取消 删除