nutch学习笔记一

最新推荐文章于 2024-07-13 18:10:19 发布

dibushi3137

最新推荐文章于 2024-07-13 18:10:19 发布

阅读量67

点赞数

文章标签：数据库

原文链接：http://www.cnblogs.com/lanblogs/archive/2013/04/02/2995942.html

版权

/*****************************/
配置文件的加载：
一、在创建Configuration对象的时候，在类Configuration(boolean loadDefaults)构造函数中会依次加载hadoop-default.xml和hadoop-site.xml
二、在创建Configuration对象的时候，在类NutchConfiguration的create()方法中
调用本类中静态的addNutchResources(Congfiguration conf)方法,再次加载 nutch-default.xml nutch-site.xml
三、在创建Configuration对象的完成后，加载crawl-tool.xml

nutch数据集的基本组成:

crawldb:爬行数据库，用来存储所要爬行的网址

linkdb: 链接数据库，用来存储每个网址的链接地址，包括源地址和链接地址

segments: 抓取的网址被作为一个单元，而一个segment就是一个单元。
一个segment包括以下几个子目录:

crawl_generate: 包含所抓取的网址列表

crawl_fetch: 包含每个抓取页面的状态

content: 包含每个抓取页面的内容

parse_text: 包含每个抓取页面的解析文本

parse_data: 包含每个页面的外部链接和元数据

crawl_parse: 包含网址的外部链接地址，用于更新crawldb数据库

indexes: 采用Lucene的格式建立索引集

String argss[]={"-dir", "crawl", "-depth", "3", "-threads", "5", "-topN", "50", "urls"}
/*
* -dir 爬行后，抓取的页面的存放目录
* crawl 通知nutch.jar 执行Crawl类中的main()方法
* -depth 3 指爬行的深度，这里处于测试的目的，选择深度为 3 ，完全爬行一般可设定为10左右
* -threads 10 指定并发的进程这是设定为 10
* -topN 50 指在每层的深度上所要抓取的最大的页面数，完全抓取可设定为1万到100万，这取决于网站资源数量
* -urls 存放爬行后的路径文件url.txt的目录
*/

转载于:https://www.cnblogs.com/lanblogs/archive/2013/04/02/2995942.html

dibushi3137

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nutch学习笔记一

/*****************************/配置文件的加载：一、在创建Configuration对象的时候，在类Configuration(boolean loadDefaults)构造函数中会依次加载hadoop-default.xml和hadoop-site.xml 二、在创建Configuration对象的时候，在类NutchConfiguration的crea...
复制链接

扫一扫