爬虫的原理及过程

通用网络爬虫
一、实现过程如下图所示
通用网络爬虫的实现过程
二、实现原理如下

  1. 获取初始的URL。初始的URL地址可以人为的指定,也可以由用户指定的某几个或者某个初始爬取网页决定。
  2. 根据初始的URL爬取页面并获得新的URL。爬取当前初始的URL地址中的网页信息后,解析网页信息内容将网页信息内容存储到原始数据库中,并且在当前获得的网页信息里面发现新的URL地址,存放到一个URL队列里面。
  3. 从URL队列中读取新的URL,从而获得新的网页信息,同时在新网页中获取新的URL,并重复上述的爬取过程。
  4. 满足爬虫系统设置的停止条件时,停止爬取。

聚焦网络爬虫
一、实现过程程如下图所示
聚焦爬虫
二、实现原理如下

  1. 制定爬取的方案。
  2. 设定初始的URL。
  3. 根据初始的URL抓取页面,并获得新的URL。
  4. 从新的URL中过滤掉与需求无关的URL,将过滤后URL放到URL队列中。
  5. 在URL队列中,根据搜索算法确定URL的优先级,并确定下一步要爬取的URL地址。
  6. 得到新的URL,将新的URL重现上述爬取过程。
  7. 满足爬虫系统设置的停止条件或者无法获取新的URL地址时,停止爬取。
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值