![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Lucene
forwen
这个作者很懒,什么都没留下…
展开
-
Lucene分词器结构
标准分词器的三部分结构 1.构建器 从无参数---有参数---文件读入参数---reader流输入参数等各种构建器(加载停用词表) 2.Filters各个filters逐个过滤 如:StandarFilters ---> LowerCaseFilter ---> StopFilter(带有一个stop words表的过滤器)原创 2009-04-21 11:36:00 · 368 阅读 · 0 评论 -
开源搜索引擎Nutch 0.9的安装使用(转)
Nutch是Apache组织的一个开源项目,利用它用户可以 建立自己内部网的搜索引擎,也可以建立针对整个网络的搜索引擎。一、Linux下的安装使用 (我使用的操作系统是red hat as4) 1.安装JDK 2.安装TOMCAT,我安装的是tomcat5.5.23,安装方法到网上搜,输入http://127.0.0.1:8080出现变态猫就ok了,可以进入下一步。 3转载 2009-05-14 16:05:00 · 650 阅读 · 0 评论 -
[整理]Nutch的爬虫分析
原帖http://www.diybl.com/course/3_program/java/javajs/20071018/77925.html----------------------------------1.创建一个新的WebDb (admin db -create);2.将抓取起始URLs写入WebDB中 (inject); 3.根据WebDB生成fetchlist并写转载 2009-11-13 00:08:00 · 8963 阅读 · 1 评论