1.https更安全,但是性能较低
2.http超文本传输协议,默认端口号是80
3.https (http+ssl安全套接字层) 默认端口号443
+ 常见的请求头与响应头
请求头
host 域名
connection (链接类型)
Upgrade-Insecure-Requests(升级为HTTPS请求)
User-Agent(羊皮,伪装): Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit(浏览器引擎)/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36
Referer: 页面跳转处,防盗链(图片/视频)
Cookie: 状态保持
authorization
响应头
+ Set-Cookie(对方服务器设置Cookie到用户浏览器)
## 常见的相应状态码
### 所有状态码都不可信
network抓包得到的源码才是判断的依据,element
+ 200 成功
+ 302 跳转
+ 303
+ 307
+ 403 非法请求 没权限
+ 404 找不到页面
+ 500 服务器内部错误
+ 503 服务器维护 或负载过重没能应答 可能是因为爬虫频繁访问URL,使服务器忽视爬虫的请求
## 浏览器的请求过程
浏览器
发送所有请求,进行渲染
爬虫
只发送指定请求,不进行渲染
爬虫Day1
最新推荐文章于 2024-06-14 10:41:07 发布