Python 爬虫-爬虫基础

最新推荐文章于 2022-08-27 19:04:21 发布

Orange-OS

最新推荐文章于 2022-08-27 19:04:21 发布

阅读量531

点赞数

分类专栏：爬虫文章标签：爬虫 python http

本文链接：https://blog.csdn.net/qq_43175672/article/details/122552540

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

爬虫基础

爬虫基础
- HTTP 基本原理

爬虫基础

HTTP 基本原理

HTTP 请求过程

请添加图片描述

Name：请求的名称，一般会将 URL 的最后一部分内容当作名称
Status：响应的状态码，这里显示 200，代表响应是正常的。通过状态码，我们可以判断发送了请求之后是否得到了正常的响应
Type：请求的文档类型。这里为document，代表我们这次请求的是一个 HTML 文档，内容就是一些 HTML 代码
Initiator：请求源。用来标记是由哪个对象或进程发起的
Size：从服务器下载的文件和请求的资源大小。如果是从缓存中取得的资源，则该列会显示 from cache
Time：发起请求到获取响应所用的总时间
Waterfall：网络请求的可视化瀑布流

General 部分：
Resquest URL：请求的 URL
Resquest Method：请求的方法
Status Code：响应状态码
Remote Address：远程服务器的地址和端口
Referrer Policy：Referrer 判别策略

请求

请求，由客户端向服务端发起，可以分为 4 个部分内容：请求方法（Resquest Method）、请求的网址（Resquest URL）、请求头（Resquest Headers）、请求体（Resquest Body）。

请求方法

常见的请求方法有两种：GET 和 POST

POST 请求大多在表单提交时发起。比如：一个登录表单，输入用户名和密码后，点击登录按钮，这通常会发起一个 POST 请求，其数据通常以表单的形式传输，而不会体现在 URL 中

GET 和 POST 请求方法的区别：

GET 请求中的参数包含在 URL 里面，数据可以在 URL 中看到，而 POST 请求的 URL 不会包含数据，数据都是通过表单形式传输的，会包含在请求体中
GET 请求提交的数据最多只有1024个字节，而 POST 方式没有限制

请求的网址

请求的网址，即统一资源定位符 URL，它可以唯一确定我们想请求的资源

请求头

请求头，用来说明服务器要使用的附加信息，比较重要的信息有Cookie、Referer、User-Agent 等

常用的头信息：

Accept：请求的报头域，用于指定客户端可接受哪些类型的信息
Accept-Language：指定客户端可接受的语言类型
Accept-Encoding：指定客户端可接受的内容编码
Host：用于指定请求资源的主机 IP 和端口号，其内容为请求 URL 的原始服务器或网关的位置。从 HTTP 1.1 版本开始，请求必须包含此内容
Cookie：这是网站为了辨别用户进行会话跟踪而存储在用户本地的数据。它的主要功能是维持当前访问会话
Referer：此内容是用来标识这个请求是从哪个页面发过来的，服务器可以拿到这一信息并做相应的处理
User-Agent：它是一个特殊的字符串头，可以使服务器识别客户使用的操作系统及版本、浏览器及版本等信息。在做爬虫时加上此信息，可以伪装为浏览器；如果不加，很可能会被识别为爬虫
Content-Type：用来表示具体请求中的媒体类型信息

请求体

请求体一般承载的内容是 POST 请求中的表单数据，而对于 GET 请求，请求体则为空

登录之前，我们填写了用户名和密码信息，提交时这些内容就会以表单数据的形式提交给服务器，此时需要注意 Resquest Headers 中指定 Content-Type 为 application/x-www-form-urlencoded。只有设置 Content-Type 为 application/x-www-form-urlencoded，才会以表单数据的形式提交。另外，我们也可以设将 Content-Type 设置为 application/json 来提交 json 数据，或者设置为 multipart/form-data 来上传文件

在爬虫中，如果要构造 POST 请求，需要使用正确的 Content-Type，并了解各种请求库的各个参数设置时使用的是哪种 Content-Type，不然可能会导致 POST 提交后无法正常响应

响应

响应，由服务端返回给客户端，可以分为三部分：响应状态码（Response Status Code）、响应头（Response Headers）和响应体（Response Body）

响应状态码

响应状态码表示服务器的响应状态

200 服务器正常

404 页面未找到

500 服务器内部发生错误

在爬虫中，我们可以根据状态码来判断服务器响应状态

响应头

响应头包含了服务器对请求的应答信息，如 Content-Type、Server、Set-Cookie 等

Date：标识响应产生的时间
Last-Modified：指定资源的最后修改时间
Content-Encoding：指定响应内容的编码
Server：包含服务器的信息，比如名称、版本号等
Content-Type：文档类型，指定返回的数据类型是什么，如 text/html 代表返回 HTML 文档，application/x-javascript 则代表返回 JavaScript 文件，image/jepg 则代表返回图片
Set-Cookie：设置 Cookies。响应头中的 Set-Cookie 告诉浏览器需要将此内容放在 Cookies 中，下次请求携带 Cookies 请求
Expires：指定响应过期的时间，可以使代理服务器或浏览器将加载的内容更新到缓存中。如果在次访问，就可以直接从缓存中加载，降低服务器负载，缩短加载时间

响应体

响应的正文数据都在响应体中，比如请求网页时，它的响应体就是 HTML 代码；请求一张图片时，它的响应体就是图片的二进制数据。我们做爬虫请求网页后，要解析的内容就是响应体

网页基础

选择器

在 CSS 中，我们使用 CSS 选择器来定位节点。例如，div 节点的 id 为 container，那么就可以表示为 #container，其中 # 开头代表选择器 id，其后紧跟 id 的名称；想选择 class 为 wrapper 的节点，便可以使用 .wrapper，这里以点开头代表选择 class，其后紧跟 class 的名称

CSS 选择器还支持嵌套选择，各个选择器之间加上空格分隔开便可以代表嵌套关系

如 #container .wrapper p