nutch
chenlly99
专注LBS轨迹大数据挖掘,数据仓库建模,基于Hadoop集群的超大规模分布式计算。
展开
-
Nutch抓取源码分析之Injector类
(1) 将URL集合进行格式化和过滤,消除其中的非法URL,并设定URL状态(UNFETCHED),按照一定方法进行初始化分值; (2) 将URL进行合并,消除重复的URL入口; (3) 将URL及其状态、分值存入crawldb数据库,与原数据库中重复的则删除旧的,更换新的。 inject方法 public void inject(Path crawlDb, Path urlD原创 2012-01-30 15:16:19 · 1468 阅读 · 0 评论 -
Nutch抓取源码分析之Crawl类
1、初始化一个Configuration实例设置抓取工作配置; 2、设置一些默认抓取工作参数,比如进程数threads、抓取深度depth、抓取网页数量topN; 3、创建抓取工作抓取到的网页文件的存放目录(crawldb、linkdb、segments、indexes、index),用来存放原生网页,以及网页解析出的文本内容及其其它相关数据; 4、在抓取工作及其索引过程中,这通过初始化一些原创 2012-01-30 15:09:53 · 2834 阅读 · 0 评论 -
Nutch整体抓取过程
一、Heritrix 和Nutch 的区别 Heritrix 是个 "archival crawler" (1)用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。 (2)重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。 Nutch 只原创 2011-12-05 11:06:30 · 6779 阅读 · 0 评论