Nutch源代码给我的收获

1)构建搜索引擎的一般模式。虽然,原来在读网络机器人这本书的时候就大致了解了构建一个搜索引擎所需要的几个组成部分,但只有真正接触Nutch这样真实,全面,可行的解决方案后,才真正能对搜索引擎的一般模式有所了解
2)并行编程和算法。以前就知道搜索引擎里的算法都是并行,但如何构建这样的程序完全没有谱。但Nutch给出了例子和答案。
3)map reduce模型。以前读过google lib里面关于map reduce的一篇论文,大致知道google是基于map reduce模型来构建并行程序的,但只停留在概念上,如何基于这样的模型写程序就不得而知了。Nutch基于hadoop架构。而hadoop架构就是基于map reduce模型。整个Nutch从crawl到fetch,从index到search都是基于map reduce模型,所以能够在Nutch里找到如何使用map reduce的方案
4)Plugin编程模型。以前就觉得Eclipse插件式模式很好,扩展性,管理性好,但如何在自己程序中构建这样的架构就不知道了。Nutch也是基于Eclipse  Plugin的模式,它的源代码能告诉你该如何构建Plugin编程模型
5)对于各种文档的解析。Nutch自带有对各种文档解析的Plugin。读读这些Plugin的源代码后就知道该如何解析诸如Html,pdf,excel,word等格式的文档
其他收获待续......
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值