URL:全称Uniform Resource Identifier,简单的可以认为是目标网站的链接。
超文本传输协议:
HTTP:全称Hyper Text Transfer Protocol,用于从网络传输超文本数据到本地浏览器的传送协议。
HTTPS:即HTTP的加密版,传输安全性强。
说明:
1.HTTPS可以访问HTTP和HTTPS两种协议的网站。
2.HTTPS维护比HTTP昂贵。
HTTP请求
常见请求:GET和POST
GET:get请求中的参数包含在url中,get请求提交的数据最多1024字节。
POST:post请求的参数以表单形式传输,包含在请求体中,post请求提交的数据无字节限制。
说明:
1.涉及敏感信息时,一般使用post请求传输以保证数据安全性。
2.文件传输较大时也会采用post请求。
3.实际操作时,根据请求头Headers中的Genreal中的请求方式Request Method可快速查看网站的请求方式。
请求的网站
说明:请求的网站,即统一资源定位符url。
请求头(Headers)
说明:说明服务器的附加信息,如cookie、referer、User-Agent等。
Host:指定请求资源的主机IP和端口号
Cookie:网站存储用户的部分信息到本地的数据。
Referer:显示该请求是从哪里发来的,常用于防盗链
User-Agent:识别请求源的操作系统及版本和浏览器及版本等信息
请求头是爬虫的重要部分,大部分网站会在这里设有反爬虫措施,可通过点击多个不同网页查看请求头变化找出规律。
请求体
说明:post的请求体承载表单数据;get请求的请求体为空。
响应
说明:由服务器返回给客户端,分为三部分:响应状态码、响应头、响应体
响应状态码
说明:表示服务器的响应状态。
常见响应状态码:
状态码 说明
100 继续
200 成功
400 错误请求
404 未找到
500 服务器内部错误
503 服务器不可用
504 网络超时
响应头
说明:包含了服务器对请求的应答信息。
响应体
说明:服务器返回给客户端的响应数据都在响应体中。