一.万维网的模型
1.蝴蝶结型的万维网
1.蝴蝶结的中部(SCC Strongly Connected Component)
2.蝴蝶结的左叫(IN)
3.蝴蝶的右部(OUT)
4.蝴蝶结的须脚(Tendrils)
2.万维网的直径
用表示从一个网页到另一个网页的路径,这个路径平均是19
3.万维网的规模和变化特征
规模:目前估计有百亿数量级也就是10的10次方
变化特征:网页的半衰期是10天,(i.e 10万网页,10天后只有5万网页),变化可以归结为泊松过程(Poisson process)
二.爬虫的基本概念
爬虫,种子站点,URL,Backlinks
三.网页抓取原理
从种子站点开始抓取
按照DFT(Dept-First Traversal)或者BFT(Breadth-First Traversal)搜索
遍历时需要有一个队列(queue)的数据结构来支持,这个队列理解为工作负载队列。
不重复扑取策略
主要的策略是用了Bitmap