python 爬虫简介

什么是爬虫:
是一种按照一定的规则,自动地抓取互联网信息的程序, 所谓网页抓取,就是把 URL 地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python 中有很多库可以用来抓取网页。

分类:
1、通用爬虫(General Purpose Web Crawler)
捜索引擎抓取系统(Baidu、Google、Yahoo 等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。

2、聚焦爬虫(Focused Web Crawler)
是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

3、增量式爬虫(Incremental Web Crawler)
是指在具有一定量规模的网络页面集合的基础上,采用更新数据的方式选取已有集合中的过时网页进行抓取,以保证所抓取到的数据与真实网络数据足够接近。进行增量式抓取的前提是,系统已经抓取了足够数量的网络页面,并具有这些页面被抓取的时间信息。

4、深层爬虫(Deep Web Crawler)
针对起始 url 地址进行数据采集,在响应数据中进行数据筛选得到需要进行数据采集的下一波 url 地址,并将 url 地址添加到数据采集队列中进行二次爬取…以此类推,一致到所有页面的数据全部采集完成即可完成深度数据采集,这里的深度指的就是 url 地址的检索深度。

爬虫步骤:
网页抓取,数据提取,数据存储。

HTTP协议
HTTP,HyperText Transfer Protocol,是互联网上应用最为广泛的一种网络协议。 是一个基于TCP/IP通信协议来传递数据,一个属于应用层的协议 ,浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器根据接收到的请求后,向客户端发送响应信息。

HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)HTTP的安全版,在HTTP下加入SSL层。

SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全。

HTTP 的端口号为 80, HTTPS 的端口号为 443 。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值