PYTHON爬虫学习（一）-- 基础概念

本文链接：https://blog.csdn.net/DIAJEY/article/details/110467407

什么是爬虫？

	通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程

爬虫在使用场景中的分类

–通用爬虫：
抓取系统的重要组成部分。抓取的是一整张页面数据

–聚焦爬虫：
建立在通用爬虫的基础上。抓取的是页面中特定的局部内容

–增量式爬虫：
检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据

反爬机制

1.robots.txt协议：
君子协议：规定了网站中哪些数据可以被爬取，哪些不可以

http&https协议

·1.http协议：

--概念：就是服务器和客户端进行数据交互的一种形式

常用请求头信息：
	--User-Agent: 请求载体的身份标识（什么浏览器，机子型号等）
	--Connection：请求完毕后，是断开连接还是保持连接
常用响应头信息：
	--Content-Type ： 服务器响应会客户端的数据类型

2.https协议：

--安全的超文本协议（http）

加密方式：
	--对称密钥加密
	--非对称密钥加密
	--*证书密钥加密*

·对称密钥加密：
在这里插入图片描述
缺点：在传输的时候如果被连接，密钥的信息也会被拦截下来，从而看到里面的加密信息

·非对称密钥加密：

有两把锁，一把叫做私有密钥，一把是公开密钥，服务器先告诉客户端按照自己给出的公开密钥进行加密处理，客户端按照公开密钥加密后，服务器接收到信息后再通过自己的私有密钥进行解密。这样的好处就是解密的钥匙不会进行传输，也就不会被挟持
在这里插入图片描述
缺点：
·效率低，处理负载
·公钥也有可能被挟持，只要是发送密钥，就有被挟持的风险

·证书密钥加密：

密钥不需要传输，有数字签名不会被篡改，非常安全

在这里插入图片描述