爬虫工具Heritrix初体验

需要找一个工具去爬取某个网站,简单调研后剩下了两个候选:Heritrix和Nutch。最后听说Heritrix可定制的地方比较多,更加灵活。恰好这是我需要的。遂决定采用Heritrix,初步尝试后发现效果不错。具体的好处在于:配置简单,有良好的web界面,不需要写一行代码。 安装 我用...

2013-05-08 16:03:53

阅读数:680

评论数:0

Heritrix架构简述

本文的目的,其实是希望通过对heritrix架构的分析,了解如何实现一个网络爬虫。 Heritrix的架构如图: Web Administrative Console: 就是一个基于web的控制台。Heritrix内嵌了Jetty就是为了做这事。 CrawlOrder:这东西的名...

2013-05-08 16:02:55

阅读数:628

评论数:0

简述网络爬虫的系统实现

网络爬虫常常被人所忽略,特别是和搜索引擎的光环相比,它似乎有些暗淡无光。我很少看见有详细介绍爬虫实现的文章或者文档。然而,爬虫其实是非常重要的一个系统,特别是在今天这个数据为王的时代。如果你是一个刚刚开始的公司或者项目,没有任何原始的数据积累,那么通过爬虫去Internet上找到那些有价值的数据再...

2013-05-08 16:02:04

阅读数:961

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭