nutch作为一个功能强大的网络爬虫,既可以在自己网站内进行搜索,也可以在互联网上进行搜索,各自的修改规则不同,侧重点也不同。 学习nutch已经有了一段时间了,总想腾出点时间写点东西,直到此时才有勇气打开博客开始码字,不为其他,只为给自己开发学习之路留点痕迹,同时积累点码字经验(O(∩_∩)O)。 nutch搜索可以分为本地local和deploy两大中类型,个人感觉nutch在hadoop基础上实行分布式搜索互联网数据更能展现出它那强大功能。当然,nutch只是众多网络爬虫中的一种,Java实现,版本一直在不断更新,一次比一次更加强大,就拿nutch1.4来说吧,机能在互联网上抓取数据又能进行索引,这个索引是在lucene基础上做的,很方便,功能也很强大,不过,现在主要是跟Solr结合,将爬取下来的数据用Solr进行分类索引。也可以用Luke进行查看索引后的结果,也可以通过http://localhost:8983/solr 进行查看。 个人感觉nutch一个最大的优点是它的插件机制,灵活!扩展性也很强,可以根据自己的需求编写不同的插件实现相应的功能,只需要遵守它的插件编写规则就可以了,而在爬取的过程中,通过配置文件进行加载nutch的插件。 在linux环境下,可以使用nutch自带的命令查看爬取及索引的结果,并能够把它们下载到本地或者存入数据库中。 今天就记录到此,待续……