nutch开发之初步感言

最新推荐文章于 2024-09-13 09:50:42 发布

一梦

最新推荐文章于 2024-09-13 09:50:42 发布

阅读量594

点赞数

分类专栏： Search Engine 文章标签：网络爬虫 solr lucene 互联网 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Aodimeng/article/details/7620851

版权

Search Engine 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

nutch作为一个功能强大的网络爬虫，既可以在自己网站内进行搜索，也可以在互联网上进行搜索，各自的修改规则不同，侧重点也不同。

学习nutch已经有了一段时间了，总想腾出点时间写点东西，直到此时才有勇气打开博客开始码字，不为其他，只为给自己开发学习之路留点痕迹，同时积累点码字经验（O(∩_∩)O）。

nutch搜索可以分为本地local和deploy两大中类型，个人感觉nutch在hadoop基础上实行分布式搜索互联网数据更能展现出它那强大功能。当然，nutch只是众多网络爬虫中的一种，Java实现，版本一直在不断更新，一次比一次更加强大，就拿nutch1.4来说吧，机能在互联网上抓取数据又能进行索引，这个索引是在lucene基础上做的，很方便，功能也很强大，不过，现在主要是跟Solr结合，将爬取下来的数据用Solr进行分类索引。也可以用Luke进行查看索引后的结果，也可以通过http://localhost:8983/solr 进行查看。

个人感觉nutch一个最大的优点是它的插件机制，灵活！扩展性也很强，可以根据自己的需求编写不同的插件实现相应的功能，只需要遵守它的插件编写规则就可以了，而在爬取的过程中，通过配置文件进行加载nutch的插件。

在linux环境下，可以使用nutch自带的命令查看爬取及索引的结果，并能够把它们下载到本地或者存入数据库中。

今天就记录到此，待续……

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。