lucene/nutch
a77107307
这个作者很懒,什么都没留下…
展开
-
lucene中增量索引的方法!
lucene在建立索引时不可能总是删了原来的再重建索引。在建索引的IndexWriter中最后一个参数是boolean类型的,用来确定是重建索引(true)还是增量索引。 [code]IndexWriter writer = new IndexWriter(indexDir,new Analyzer(),true)[/code] 这样表示重建索引,当你运行索引类后如果ind...2006-10-27 17:42:20 · 660 阅读 · 0 评论 -
用Lucene构造简单搜索!
Lucene是一个开源世界里最有名的搜索引擎包,关于它的介绍现在网络上也有很多了,特别是车东的文章[url]http://www.chedong.com/tech/lucene.html[/url],网上流传至广。现在还有一本《Lucene In Action》的电子书是详细介绍的Lucene,可以down下来看。今天先来对硬盘文件实现简单的索引和搜索功能。 用Lucene建立索...2006-10-31 19:25:32 · 95 阅读 · 0 评论 -
nutch爬行中的depth(层数,深度?)
一直搞不清楚nutch中的depth是什么意思,就照着字面意思理解,认为是指html文件所在文件夹的相对于网站的深度。今天做了个小实验,证明并不是这样,下面来看看 先在Tomcat里面建一个示例网站Test,网站根目录下建四个网页index.html, a.thml, b.html, c.html.建一个文件夹1,内有1.html,在文件夹1中建文件夹2,建2.html。它们的链接关系:index...2006-11-27 15:18:24 · 451 阅读 · 0 评论