爬虫入门_1:爬虫基础简介

由于最近这段时间在学习爬虫相关知识,所以将相关笔记整理出来,分享给大家~~~

1.1 爬虫初始及深入

爬虫,就是通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。

1.1.1 爬虫在使用场景中的分类
  • 通用爬虫

    抓取系统种农药组成部分。抓取的是一整张页面数据

  • 聚焦爬虫
    是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容

  • 增量式爬虫
    检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据

1.1.2 反爬&反反爬机制
  • 反爬机制:门户网站,可以通过指定相应的策略或技术手段,防止爬虫程序进行网站数据的爬取

  • 反反爬策略:爬虫程序可以通过指定相关的策略或技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网站的数据

1.1.3 robots.txt协议

​ 君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。

1.2 http&https协议

  • http协议:就是服务器和客户端进行数据交互的一种形式。
  • https协议:安全的超文本的传输协议
1.2.1 常用请求头&响应头信息
  • 常用请求头信息
    • User-Agent:请求载体的身份标识
    • Connection:请求完毕后,是断开连接还是保持连接
  • 常用响应头信息
    • Content-Type:服务器响应回客户端的数据类型
1.2.2 加密方式
  • 对称秘钥加密

在这里插入图片描述

  • 非对称秘钥加密

    “非对称秘钥加密”使用的时候有两把锁,一把叫做“私有秘钥”,一把是“公开秘钥”,使用非对象加密的加密方式的时候,服务器首先告诉客户端按照自己给定的公开秘钥进行加密处理,客户端按照公开秘钥加密以后,服务器接收到信息再通过自己的私有秘钥进行解密,这样做的好处就是解密的钥匙根本就不会进行传输,因此也就避免了被挟持的风险。就算公开秘钥被窃听者拿到了,它也很难进行解密,因为解密过程是对离散对数求值,这可不是轻而易举就能做到的事。以下是非对称加密的原理图:

在这里插入图片描述

但是非对称秘钥加密技术也存在如下缺点:

  • 第一个是:如何保证接收端向发送端发出公开秘钥的时候,发送端确保收到的是预先要发送的,而不是被挟持。只要是发送秘钥,就有可能被挟持的风险。

  • 第二个是:非对称加密的方式效率比较低,它处理起来更为复杂,通信过程中使用就有一定的效率问题而影响通信速度

  • 证书秘钥加密

    在上面提到了非对称加密的缺点,其中第一个就是公钥很可能存在被挟持的情况,无法保证客户端收到的公开秘钥就是服务器发行的公开秘钥。此时就引出了公开秘钥证书机制。数字证书认证机构是客户端与服务器都可信赖的第三方机构。证书的具体传播过程如下:

    • 服务器的开发者携带公开秘钥,向数字证书认证机构提出公开秘钥的申请,数字证书认证机构在认清申请者的身份,审核通过以后,会对开发者申请的公开密钥做数字签名,然后分配这个已签名的公开秘钥,并将秘钥放在证书里面,绑定在一起

    • 服务器将这份数字证书发送给客户端,因为客户端也认可证书机构,客户端可以通过数字证书中的数字签名来验证公钥的真伪,来确保服务器传过来的公开密钥是真实的。一般情况下,证书的数字签名是很难被伪造的,这取决于认证机构的公信力。一旦确认信息无误之后,客户端就会通过公钥对报文进行加密发送,服务器接收到以后用自己的私钥进行解密。

在这里插入图片描述

如果本文对你有帮助,记得“点赞”哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值