Hadoop-Nutch学习整理(持续更新)

本文介绍了Hadoop Nutch的爬虫流程,重点讲解了Crawldb(存储待抓取的URL及下载信息)和Linkdb(存储超链接及其连入地址和锚文本)。在segments目录下,按照深度设置生成多个子文件夹,分别存储不同阶段的数据,如fetch状态、解析出的链接和内容等。
摘要由CSDN通过智能技术生成
Nutch学习整理
第一部分 单机尝试
1、安装部署
Nutch的部署和其他Hadoop生态产品的部署流程基本相似:下载软件,上传到服务器,解压文件,修改配置文件。网上有很多类似资料,不再赘述。
Nutch的配置文件主要有两个:
  • domain-urlfilter.txt 
      是用来配置所爬取网站的范围,域名和它的子网页的正则表达式,类似于爬取规则。一般配置为:
       # accept hosts in MY.DOMAIN.NAME  
         +^http: //([a-z0-9]*\.)*MY.DOMAIN.NAME/  
  • nutch-site.xml      
      这类似于对我要爬取的网站进行一下声明,不声明的话,会导致爬取失败。

2、单机主要爬取命令
简单命令格式,不赘述。
bin/nutch crawl <urlDir> [-dir d] [-threads n] [-depth i] [-topN]

3、 爬取结果解析
nutch 爬取下来的网页信息,保存路径格式如下:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值