![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索引擎
RationalGo
这个作者很懒,什么都没留下…
展开
-
简述网络爬虫的系统实现
网络爬虫常常被人所忽略,特别是和搜索引擎的光环相比,它似乎有些暗淡无光。我很少看见有详细介绍爬虫实现的文章或者文档。然而,爬虫其实是非常重要的一个系统,特别是在今天这个数据为王的时代。如果你是一个刚刚开始的公司或者项目,没有任何原始的数据积累,那么通过爬虫去Internet上找到那些有价值的数据再进行数据的清洗和整理,是一个可以快速得到数据的重要手段。 本文侧重于爬虫的系统设计和实现的部分细节,转载 2013-05-08 16:02:04 · 1170 阅读 · 1 评论 -
Heritrix架构简述
本文的目的,其实是希望通过对heritrix架构的分析,了解如何实现一个网络爬虫。 Heritrix的架构如图: Web Administrative Console: 就是一个基于web的控制台。Heritrix内嵌了Jetty就是为了做这事。 CrawlOrder:这东西的名字有些奇怪。但其实就是一个crawl任务的配置。它是一个基于XML的object,Heritrix根据转载 2013-05-08 16:02:55 · 784 阅读 · 0 评论 -
爬虫工具Heritrix初体验
需要找一个工具去爬取某个网站,简单调研后剩下了两个候选:Heritrix和Nutch。最后听说Heritrix可定制的地方比较多,更加灵活。恰好这是我需要的。遂决定采用Heritrix,初步尝试后发现效果不错。具体的好处在于:配置简单,有良好的web界面,不需要写一行代码。 安装 我用的版本是heritrix-1.14.4。 1.下载heritrix-1.14.4.tar.gz,并解转载 2013-05-08 16:03:53 · 817 阅读 · 0 评论