爬虫分类
- 通用爬虫:抓取系统重要组成部分。抓取的是一整张页面数据。
- 聚焦爬虫:建立在通用爬虫的基础之上,抓取的是页面中特定的局部内容。
- 增量式爬虫:检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。
http协议
1.常用请求头信息
----User-Agent:请求载体的身份标识
----Connection:请求完毕后,是断开连接还是保持连接
2.常用响应头信息
----Content-Type:服务器响应回客户端的数据类型
几种加密方式
- 对称密钥加密
- 非对称密钥加密
- 证书密钥加密(HTTPS采用的加密方式)
requests模块
作用:模拟浏览器发请求。
如何使用:
- --指定url
- --发起请求
- --获取响应数据
- ---持久化存储
环境安装:
pip install requests