什么是爬虫?
通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程
爬虫在使用场景中的分类
–通用爬虫:
抓取系统的重要组成部分。抓取的是一整张页面数据
–聚焦爬虫:
建立在通用爬虫的基础上。抓取的是页面中特定的局部内容
–增量式爬虫:
检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据
反爬机制
1.robots.txt协议:
君子协议:规定了网站中哪些数据可以被爬取,哪些不可以
http&https协议
·1.http协议:
--概念:就是服务器和客户端进行数据交互的一种形式
常用请求头信息:
--User-Agent: 请求载体的身份标识(什么浏览器,机子型号等)
--Connection:请求完毕后,是断开连接还是保持连接
常用响应头信息:
--Content-Type : 服务器响应会客户端的数据类型
2.https协议:
--安全的超文本协议(http)
加密方式:
--对称密钥加密
--非对称密钥加密
--*证书密钥加密*
·对称密钥加密:
缺点:在传输的时候如果被连接,密钥的信息也会被拦截下来,从而看到里面的加密信息
·非对称密钥加密:
有两把锁,一把叫做私有密钥,一把是公开密钥,服务器先告诉客户端按照自己给出的公开密钥进行加密处理,客户端按照公开密钥加密后,服务器接收到信息后再通过自己的私有密钥进行解密。这样的好处就是解密的钥匙不会进行传输,也就不会被挟持
缺点:
·效率低,处理负载
·公钥也有可能被挟持,只要是发送密钥,就有被挟持的风险
·证书密钥加密:
密钥不需要传输,有数字签名不会被篡改,非常安全