Nutch学习整理
是用来配置所爬取网站的范围,域名和它的子网页的正则表达式,类似于爬取规则。一般配置为:
第一部分 单机尝试
1、安装部署
Nutch的部署和其他Hadoop生态产品的部署流程基本相似:下载软件,上传到服务器,解压文件,修改配置文件。网上有很多类似资料,不再赘述。
Nutch的配置文件主要有两个:
- domain-urlfilter.txt
# accept hosts in MY.DOMAIN.NAME
这类似于对我要爬取的网站进行一下声明,不声明的话,会导致爬取失败。
+^http:
//([a-z0-9]*\.)*MY.DOMAIN.NAME/
- nutch-site.xml
2、单机主要爬取命令
简单命令格式,不赘述。
bin/nutch crawl <urlDir> [-dir d] [-threads n] [-depth i] [-topN]
3、
爬取结果解析
nutch
爬取下来的网页信息,保存路径格式如下: