1.1
- URL / URI :唯一指定了一个网络资源的访问方式
- 超文本:网页的源代码HTML就是超文本
- 协议类型:
- HTTP(Hyper Text Transfer Protocol):超文本传输协议
- HTTPS(Hyper Text Transfer Protocol over Secure Socket Layer):HTTP加入SSL层,保障数据信息安全,且能确认网站的真实信息(某些网站的证书未被CA机构信任,但它的数据传输仍然是SSL加密的,需要忽略证书的选项,否则会SSL链接错误)
1.2 HTTP请求过程
我们使用浏览器访问网页的过程实际就是浏览器根据我们输入的URL向网站所在的服务器发送请求,服务器处理请求后返回源代码,浏览器解析代码呈现出我们看到的页面。
请求分为四部分:Request Method、Request URL、Request Headers、Request Body
Request Method
- GET请求的参数包含在URL里面,数据可以在URL里看到,POST请求的URL不会包含这些数据,POST的数据以表单的形式传输,包含在请求体中。
- GET请求提交的数据最多1024字节,POST没有限制。
Request Headers
- Accept:客户端可以接受哪些类型的信息
- Accept-Language:客户端可以接受的语言类型
- Accept-Encoding:客户端可以接受的内容编码
- Host:请求资源的主机IP和端口号(URL的原始服务器或网关的位置)
- Cookies:网站为识别用户身份而存在用户本地的文件,它可以维持当前访问会话,防止反复身份验证。
- Referer:标识这个请求是从哪个页面发来的
- User-Agent:UA,服务器识别用户的操作系统和浏览器的版本信息,爬虫加上UA可以伪装成浏览器
- Content-Type:请求的媒体类型信息,text/html代表HTML格式,image/gif代表GIF图片,application/json代表JSON类型
Request Body
请求体一般是POST请求的表单数据,GET请求的请求体为空