搜索引擎_historyasamirror的博客-CSDN博客

搜索引擎

关注

文章平均质量分 72

关注数：文章数：6 文章阅读量：80642 文章收藏量：10

作者: historyasamirror

爱机器，爱学习。三年的NLP经验，期间涉及Machine Learning，Data Mining，骨子里由衷的喜欢；正在做分布式，感觉自己很幸运，这个领域一定大有可为；关注User Study，学会从用户的角度看技术；

展开

爬虫工具Heritrix初体验

需要找一个工具去爬取某个网站，简单调研后剩下了两个候选：Heritrix和Nutch。最后听说Heritrix可定制的地方比较多，更加灵活。恰好这是我需要的。遂决定采用Heritrix，初步尝试后发现效果不错。具体的好处在于：配置简单，有良好的web界面，不需要写一行代码。安装我

原创 2011-07-13 23:37:03 · 12504 阅读 · 1 评论
不简单的URL去重

发现我有好几篇blog的前缀都是用的“不简单”，它大概描述了这样一个状态：一个看起来很简单的任务在实践之后，发现其实很不容易。很多事情都是这样，如果不是亲自去做，如果不是仔细钻研，那就只能处于雾里看花的状态。这让我想到另一个故事，在我毕业的那年曾经被某公司的CTO面试，他和我

原创 2011-09-03 23:00:51 · 20514 阅读 · 12 评论
Heritrix控制抓取速度

Heritrix通过三个参数来控制爬虫抓取的速度，位于每个Job的setting处，如图：delay-factor是一个因子，表示两次抓取之间的delay应该是上一次抓取的延迟 * delay-factor：举例来说，如果将delay-factor设置为4，前一次抓取

原创 2011-08-21 12:13:05 · 7048 阅读 · 0 评论
Heritrix架构简述

本文的目的，其实是希望通过对heritrix架构的分析，了解如何实现一个网络爬虫。Heritrix的架构如图：Web Administrative Console：就是一个基于web的控制台。Heritrix内嵌了Jetty就是为了做这事。CrawlOr

原创 2011-08-21 13:15:54 · 7641 阅读 · 0 评论
基于Heritrix的增量抓取

虽然打着Heritrix的名头，但本文更多的还是谈谈增量抓取的基本思想，Heritrix只是正好被用来做为例子。如果你不是随便写个爬虫抓着玩，那么一定会碰到一个问题，就是增量抓取。不管是百度，google这样的广泛搜索引擎，还是现在很火的垂直搜索，增量抓取一定都是做爬

原创 2011-08-21 15:10:03 · 10281 阅读 · 0 评论
简述网络爬虫的系统实现

网络爬虫常常被人所忽略，特别是和搜索引擎的光环相比，它似乎有些暗淡无光。我很少看见有详细介绍爬虫实现的文章或者文档。然而，爬虫其实是非常重要的一个系统，特别是在今天这个数据为王的时代。如果你是一个刚刚开始的公司或者项目，没有任何原始的数据积累，那么通过爬虫去Internet上找到那些有价值的数据再进行数据的清洗和整理，是一个可以快速得到数据的重要手段。本文侧重于爬虫的系统设计和实现的部分细节，

原创 2011-12-11 13:48:11 · 22654 阅读 · 7 评论

搜索引擎

作者: historyasamirror

爬虫工具Heritrix初体验

不简单的URL去重

Heritrix控制抓取速度

Heritrix架构简述

基于Heritrix的增量抓取

简述网络爬虫的系统实现