一、HTTP vs HTTPS
HTTPS是SSL加密的安全版HTTP
二、HTTP请求过程
1. 客户端向服务器发出请求
请求方法:GET、POST
GET | POST | |
请求参数位置 | 包含在URL中,信息可见 | 在表单中(如用户名密码登录) |
提交数据大小 | 不超过1024字节 | 无限制,可上传文件 |
请求网址:URL,唯一确定请求资源
请求头:服务器需要附加信息,包含Accept、Cookies、Referrer等
请求体:一般为POST表单数据
2. 服务器返回响应
响应状态码
状态响应码 | 响应状态 |
200 | 正常 |
404 | 页面未找到 |
500 | 服务器错误 |
响应头
响应体 :正文
三、网页结构
HTML:网页结构
CSS:页面美化
JavaScript:动态交互
四、会话和Cookies
1. 无状态HTTP
服务器缺少记录状态,只负责完成请求,后续处理信息需要重传(例如每次都需要登录)。
2. 会话
在服务端,保存用户的会话信息
3. Cookies
客户端,下次访问网页时自动附带Cookies给服务器,区分用户,判断登录状态,返回响应(自动登录)。
五、爬虫Robots协议
规定了哪些页面能爬(Allow),哪些页面不能爬(Disallow)。
爬虫过快或高频率会对服务器产生压力,导致IP被封锁。