/*****************************/
配置文件的加载:
一、在创建Configuration对象的时候,在类Configuration(boolean loadDefaults)构造函数中会依次加载hadoop-default.xml和hadoop-site.xml
二、在创建Configuration对象的时候,在类NutchConfiguration的create()方法中
调用本类中静态的addNutchResources(Congfiguration conf)方法,再次加载 nutch-default.xml nutch-site.xml
三、在创建Configuration对象的完成后,加载crawl-tool.xml
nutch数据集的基本组成:
crawldb:爬行数据库,用来存储所要爬行的网址
linkdb: 链接数据库,用来存储每个网址的链接地址,包括源地址和链接地址
segments: 抓取的网址被作为一个单元,而一个segment就是一个单元。
一个segment包括以下几个子目录:
crawl_generate: 包含所抓取的网址列表
crawl_fetch: 包含每个抓取页面的状态
content: 包含每个抓取页面的内容
parse_text: 包含每个抓取页面的解析文本
parse_data: 包含每个页面的外部链接和元数据
crawl_parse: 包含网址的外部链接地址,用于更新crawldb数据库
indexes: 采用Lucene的格式建立索引集
String argss[]={"-dir", "crawl", "-depth", "3", "-threads", "5", "-topN", "50", "urls"}
/*
* -dir 爬行后,抓取的页面的存放目录
* crawl 通知nutch.jar 执行Crawl类中的main()方法
* -depth 3 指爬行的深度,这里处于测试的目的,选择深度为 3 ,完 全爬行一般可设定为10左右
* -threads 10 指定并发的进程这是设定为 10
* -topN 50 指在每层的深度上所要抓取的最大的页面数,完全抓取可设 定为1万到100万,这取决于网站资源数量
* -urls 存放爬行后的路径文件url.txt的目录
*/