nutch开发之初步感言

         nutch作为一个功能强大的网络爬虫,既可以在自己网站内进行搜索,也可以在互联网上进行搜索,各自的修改规则不同,侧重点也不同。

学习nutch已经有了一段时间了,总想腾出点时间写点东西,直到此时才有勇气打开博客开始码字,不为其他,只为给自己开发学习之路留点痕迹,同时积累点码字经验(O(∩_∩)O)。

    nutch搜索可以分为本地local和deploy两大中类型,个人感觉nutch在hadoop基础上实行分布式搜索互联网数据更能展现出它那强大功能。当然,nutch只是众多网络爬虫中的一种,Java实现,版本一直在不断更新,一次比一次更加强大,就拿nutch1.4来说吧,机能在互联网上抓取数据又能进行索引,这个索引是在lucene基础上做的,很方便,功能也很强大,不过,现在主要是跟Solr结合,将爬取下来的数据用Solr进行分类索引。也可以用Luke进行查看索引后的结果,也可以通过http://localhost:8983/solr 进行查看。

    个人感觉nutch一个最大的优点是它的插件机制,灵活!扩展性也很强,可以根据自己的需求编写不同的插件实现相应的功能,只需要遵守它的插件编写规则就可以了,而在爬取的过程中,通过配置文件进行加载nutch的插件。

      在linux环境下,可以使用nutch自带的命令查看爬取及索引的结果,并能够把它们下载到本地或者存入数据库中。

     今天就记录到此,待续……

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值