2.1 HTTP基本原理
- 我们使用的网址叫url
- 我们看的网页源代码叫超文本
- 我们爬取的通常都是http或https
- 上网就是客户端和服务端的交互。
- 客户端发送以下请求:
- 常见的请求方法: GET,POST,HEAD,PUT ,DELETE,CONNECT, OPTIONS,TRACE
- 请求网址:URL
- 请求头:cookie, referer,user-agent,content-type
- 请求体:post请求中的表单数据
- 服务端响应:
- 响应状态码:200代表连接成功
- 响应头:date,server,content-type,last-modified,等
- 响应体 :我们想要爬的都在这里。源代码,json数据,从中提取
- 客户端发送以下请求:
2.2 网页基础
网页由HTML、CSS、JAVASCRIPT 组成
2.3 爬虫的基本原理
- 获取网页,通过requests库等
- 提取信息,分析网页源代码,采用正则表达式,bs4等
- 保存数据,保存为txt或json文本。也可以保存到数据库,mysql,mongodb等
- 自动化操作
2.4 会话和cookies
知道cookie是保存在本地的就好了
2.5 代理的基本原理
换代理防IP被封