Nutch安装配置详细指南(Windows环境)

一、搜索引擎的原理简介

 

1.一个抓网络页面程序

 

  把www中的各网站的内容抓到本地

 

2.一个文件解析工具

 

  把抓下来的html、doc等源文件处理为更精确的格式文本

 

3.一个全文检索、分词、数据挖掘,解析文本,把数据抓到结构化数据库中

 

  可以采取工具软件,未必要自己写。数据库可以是文件数据库。

 

4.开发一个搜索页面,从数据库里查询关键字

 

  对查询关键字,进行一些逻辑处理。然后返回名称和url到页面。

 

 

二、Lucene和Nutch简介

 

Java开源社区,lucene是一个成熟完整的搜索包。http://lucene.apache.org/

 

而nutch是基于lucene的一个完整的搜索引擎,包括了上述4个方面。即适合入门,也适合在这个上面做二次开发。http://lucene.apache.org/nutch/

 

 

三、下载

 

http://lucene.apache.org/nutch/release/上下载nutch的<

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值