一、搜索引擎的原理简介
1.一个抓网络页面程序
把www中的各网站的内容抓到本地
2.一个文件解析工具
把抓下来的html、doc等源文件处理为更精确的格式文本
3.一个全文检索、分词、数据挖掘,解析文本,把数据抓到结构化数据库中
可以采取工具软件,未必要自己写。数据库可以是文件数据库。
4.开发一个搜索页面,从数据库里查询关键字
对查询关键字,进行一些逻辑处理。然后返回名称和url到页面。
二、Lucene和Nutch简介
Java开源社区,lucene是一个成熟完整的搜索包。http://lucene.apache.org/
而nutch是基于lucene的一个完整的搜索引擎,包括了上述4个方面。即适合入门,也适合在这个上面做二次开发。http://lucene.apache.org/nutch/
三、下载
在http://lucene.apache.org/nutch/release/上下载nutch的<