搜索引擎
文章平均质量分 75
践行者John
一个资质一般却一直在努力的程序员。
展开
-
爬虫(二)-关于单体爬虫的设计问题
本文的前提是:不考虑分布式及集群形式的爬虫,从单体爬虫入手,分析爬虫的各组成部分及设计思路。 一.宏观分析 首先从宏观上理解,爬虫主要的作用是在最短的时间内爬取最多的质量最高的网页,为之后的索引阶段提供最基本的数据源。 上一篇文章从图论遍历的角度分析了爬虫的爬行算法-BFS及DFS,实际上在真正的大型爬虫系统中,爬行算法的选择并不是绝对的,比如一般来说对某个domain的爬取工作可能是原创 2013-11-05 01:34:30 · 614 阅读 · 0 评论 -
爬虫(一)---爬行算法
最近想梳理一下搜索搜索引擎相关的理论与技术,从爬虫开始,总结一下这方面的问题与解决方案。 不论是分布式爬虫还是单体爬虫、主题爬虫等,最关键的是爬行算法,而作为爬虫数据源的互联网可以抽象的看作是一张有向图,现对该图定义如下: 1.将互联网定义为图 2.每个页面定义为图节点 3.页面中的链接定义为有向边 简而言之,爬虫通过遍历这张有向图来爬取相关信息,并使用这些信息创建索引供检索程序查询。图的原创 2013-11-05 01:34:28 · 3849 阅读 · 0 评论 -
爬虫(三)-NIO下载服务NIOFetcher的设计
之前写的一个爬虫下载部分使用HttpClient,效率相当不敢恭维,最近打算使用NIO实现该部分,记录一下设计及实现过程中遇到的的问题。 一.基本思路 以下为可能会犯的错误 1.连接到同一服务器的SocketChannel数量过多 看到很多人用SocketChannel模拟Http请求实现方式几乎都是为每一个域名下的URL注册一个S原创 2013-11-11 18:32:09 · 1218 阅读 · 0 评论