Python爬虫及http协议简介

最新推荐文章于 2024-01-05 15:49:25 发布

爱吃肉的老狼

最新推荐文章于 2024-01-05 15:49:25 发布

阅读量810

点赞数 2

文章标签：爬虫 http python

本文链接：https://blog.csdn.net/qq_73571591/article/details/131141084

版权

1. 爬虫的概念

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端(主要指浏览器)发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

原则上,只要是客户端(浏览器)能做的事情，爬虫都能够做
爬虫也只能获取客户端(浏览器)所展示出来的数据

2.爬虫的流程

获取一个url
向url发送请求，并获取响应（需要http协议）
如果从响应中提取url，则继续发送请求获取响应
如果从响应中提取数据，则将数据进行保存

3.http以及https的概念和区别

HTTP：超文本传输协议，默认端口号是80
超文本：是指超过文本，不仅限于文本；还包括图片、音频、视频等文件
传输协议：是指使用共用约定的固定格式来传递转换成字符串的超文本内容
HTTPS：HTTP + SSL(安全套接字层)，即带有安全套接字层的超本文传输协，默认端口号：443
SSL对传输的内容（超文本，也就是请求体或响应体）进行加密
HTTPS比HTTP更安全，但是性能更低

4.爬虫特别关注的请求头

加粗的请求头为常用请求头，在服务器被用来进行爬虫识别的频率最高

Content-Type
Host (主机和端口号)
Connection (链接类型)
Upgrade-Insecure-Requests (升级为HTTPS请求)
User-Agent (浏览器名称)
Referer (页面跳转处)
Cookie (Cookie)
Authorization(用于表示HTTP协议中需要认证资源的认证信息，如前边web课程中用于jwt认证)

5.爬虫特别关注的响应头

http响应的形式如上图所示，爬虫只关注一个响应头字段

Set-Cookie （对方服务器设置cookie到用户浏览器的缓存）

6.常见的响应状态码

200：成功
302：跳转，新的url在响应的Location头中给出
303：浏览器对于POST的响应进行重定向至新的url
307：浏览器对于GET的响应重定向至新的url
403：资源不可用；服务器理解客户的请求，但拒绝处理它（没有权限）
404：找不到该页面
500：服务器内部错误
503：服务器由于维护或者负载过重未能应答，在响应中可能可能会携带Retry-After响应头；有可能是因为爬虫频繁访问url，使服务器忽视爬虫的请求，最终返回503响应状态码

7.浏览器的运行过程

http请求的过程

浏览器在拿到域名对应的ip后，先向地址栏中的url发起请求，并获取响应
在返回的响应内容（html）中，会带有css、js、图片等url地址，以及ajax代码，浏览器按照响应内容中的顺序依次发送其他的请求，并获取相应的响应
浏览器每获取一个响应就对展示出的结果进行添加（加载），js，css等内容会修改页面的内容，js也可以重新发送请求，获取响应
从获取第一个响应并在浏览器中展示，直到最终获取全部响应，并在展示的结果中添加内容或修改————这个过程叫做浏览器的渲染

在爬虫中，爬虫只会请求url地址，对应的拿到url地址对应的响应（该响应的内容可以是html，css，js，图片等）

浏览器渲染出来的页面和爬虫请求的页面很多时候并不一样，是因为爬虫不具备渲染的能力