- Python 网络爬虫概述 [ 笔记 ]

目录

 

概念

类型

网络爬虫的工作流程


概念

网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

 

类型

类型描述
通用网络爬虫传统的搜索引擎,属于通用网络爬虫的范围,但是通用爬虫具有一定的局限性,因为它所面向的数据庞大而且繁杂,没有针对性,所以用通用爬虫爬出来的数据会有很多用户不关心的数据,且它对密集型的一些信息包括图片、音频、视频等不能够更好的发现以及获取。
聚焦网络爬虫根据既定的目标,有选择的去访问相关的链接从而获取所需的信息。它跟通用网络爬虫相反。
增量式网络爬虫增量式爬虫,对已下载的网页采取增量式的更新或者说,只爬取新产生的或者已经发生变化的网页。
深层网络爬虫深层网络爬虫通常是要爬取用户登陆之后或者注册之后才能访问的那些界面。

 

网络爬虫的工作流程

如图所示,网络爬虫的整个工作流程有如下几步:

  1. 选取一部分要抓取的种子URL
  2. 将种子URL放到待抓取URL中
  3. 从待抓取的URL中得到URL,并进行解析,将其对应的网页下载下来,存储到已经下载的网页的库中。下载完毕之后,还将已经下载过了的URL放进已经抓取的URL中
  4. 分析已抓取的URL中的URL,从已经下载了的网页中的数据,再分析出新的URL,并跟已经抓取的URL进行比较去重,将最后去重留下来的URL再放到待抓取队列中,从而进入下一个循环

 

以上资料大部分出自《Python爬虫开发于项目实战》一书

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值