爬虫基础之网页结构!

网页的图结构

网站URL结构设计图

这里以伯乐在线为例,链接之间互相勾连,其实构成了一幅有向图
URL结构设计图

爬取整个站点的策略

当我们要对伯乐在线这个网站整体进行爬取时,
step1:进入伯乐在线的首页(www.jobbole.com),提取首页所有的子链接,比如top.jobbole.com、blog.jobbole.com等等
step2:选择step1中的子链接,再提取该页包含的子链接
step3:子链接中还会有子链接,继续提取
这就需要用到图的遍历策略,防止陷入图中的环。

深度优先

基本思想:

从v出发,进行DFS:

  1. 访问节点v
  2. 在v的未被访问的邻接点中随机选择一个节点w,从w出发,进行DFS
  3. 重复1.2.直到图中所有和v有路径相通的的顶点都被访问到

实现方法:递归

广度优先

基本思想:
实现方法:队列

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值