nutch学习笔记一

/*****************************/
配置文件的加载:
一、在创建Configuration对象的时候,在类Configuration(boolean loadDefaults)构造函数中会依次加载hadoop-default.xml和hadoop-site.xml
二、在创建Configuration对象的时候,在类NutchConfiguration的create()方法中
调用本类中静态的addNutchResources(Congfiguration conf)方法,再次加载 nutch-default.xml nutch-site.xml
三、在创建Configuration对象的完成后,加载crawl-tool.xml

nutch数据集的基本组成:

crawldb:爬行数据库,用来存储所要爬行的网址

linkdb: 链接数据库,用来存储每个网址的链接地址,包括源地址和链接地址

segments: 抓取的网址被作为一个单元,而一个segment就是一个单元。
一个segment包括以下几个子目录:

crawl_generate: 包含所抓取的网址列表

crawl_fetch: 包含每个抓取页面的状态

content: 包含每个抓取页面的内容

parse_text: 包含每个抓取页面的解析文本

parse_data: 包含每个页面的外部链接和元数据

crawl_parse: 包含网址的外部链接地址,用于更新crawldb数据库

indexes: 采用Lucene的格式建立索引集

String argss[]={"-dir", "crawl", "-depth", "3", "-threads", "5", "-topN", "50", "urls"}
/*
* -dir 爬行后,抓取的页面的存放目录
* crawl 通知nutch.jar 执行Crawl类中的main()方法
* -depth 3 指爬行的深度,这里处于测试的目的,选择深度为 3 ,完 全爬行一般可设定为10左右
* -threads 10 指定并发的进程这是设定为 10
* -topN 50 指在每层的深度上所要抓取的最大的页面数,完全抓取可设 定为1万到100万,这取决于网站资源数量
* -urls 存放爬行后的路径文件url.txt的目录
*/

转载于:https://www.cnblogs.com/lanblogs/archive/2013/04/02/2995942.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值