网页的图结构
网站URL结构设计图
这里以伯乐在线为例,链接之间互相勾连,其实构成了一幅有向图
爬取整个站点的策略
当我们要对伯乐在线这个网站整体进行爬取时,
step1:进入伯乐在线的首页(www.jobbole.com),提取首页所有的子链接,比如top.jobbole.com、blog.jobbole.com等等
step2:选择step1中的子链接,再提取该页包含的子链接
step3:子链接中还会有子链接,继续提取
这就需要用到图的遍历策略,防止陷入图中的环。
深度优先
基本思想:
从v出发,进行DFS:
- 访问节点v
- 在v的未被访问的邻接点中随机选择一个节点w,从w出发,进行DFS
- 重复1.2.直到图中所有和v有路径相通的的顶点都被访问到
实现方法:递归
广度优先
基本思想:
实现方法:队列