nutch 爬虫
hswrd
这个作者很懒,什么都没留下…
展开
-
浅析爬虫nutch2.0(二)
本系列是从零开始学习使用nutch。 1)java安装 nutch使用java开发,因此首先需要安装JDK,Ubuntu下安装方法,包括环境变量的设置,资料很多,这里不详细介绍了。 2)ant安装和nutch构建 ant是构建工具,支持插件机制,和maven类似,hadoop等各种分布式开源系统目前均使用maven进行管理构建,本人也不是很明白nutch为什么使用的原创 2017-05-01 11:03:46 · 409 阅读 · 0 评论 -
浅析爬虫nutch2.0(一)
前言: 作为一名程序猿,业务时间总想捣鼓点事情,不局限于工作那点东西。一来可以学习新东西,二来可以锻炼下自己的写作和总结能力,毕竟看的印象和理解远远低于写下来的记录。 为什么选择nutch,主要因为nutch是一个比较完整的爬虫和索引搜索系统,而且可以自己爬数据进行分析,数据为王的时代,拥有一些数据搜集和分析能力相当重要。另外nutch涉及到的技术比较多,而且都是目原创 2017-04-30 12:48:34 · 807 阅读 · 0 评论 -
浅析爬虫nutch2.0(三)
本文分析nutch提供的脚本,nutch提供的脚本包括nutch和craw。 1、nutch脚本:可以分别执行inject、fetch、generate等等操作 2、crawl脚本,批量命令,调用nutch脚本执行:inject,随后循环执行generate、fetch、parse、update操作 脚本分析目的:1)帮助理解nutch的工作方式,爬取数据并存储分析的完整流程;原创 2017-07-15 22:20:54 · 429 阅读 · 0 评论