Nutch-1.2学习
文章平均质量分 92
易初莲花
活跃但不嚣张,柔而不失分寸---上善若水
即使离开了视线,感情也不会疏远,爱不需要语言
展开
-
Nutch中关于CrawlDb过程
在爬取网一个页面之后,会解析出一些,这些键值对基本上分为三类: (1) 刚爬取的页面的url,及其对应的CrawlDatum对象,这时其CrawlDatum对象保存的一般页面分析后的一些信息,如爬取时间,分值等; (2) 从刚爬取的页面中解析出来的outlinks, 及其对应的CrawlDatum对象, 这时其CrawlDatum对象保存的一般都是一些初始化的信息,其状态一般也为unfetc转载 2012-08-16 15:01:56 · 731 阅读 · 0 评论 -
Nutch之Injector
1. 主要功能 将抓取起始URLs写入crawlDb中。 2. 涉及到的主要的类 org.apache.nutch.crawl.Injector org.apache.nutch.crawl.CrawlDbFilter org.apache.nutch.crawl.CrawlDbReducer 3. 具体介绍 (1) Injector功能流原创 2012-08-13 17:09:42 · 676 阅读 · 0 评论