深入浅出一文读懂Python爬虫基本原理

最新推荐文章于 2024-08-29 17:41:02 发布

小石y

最新推荐文章于 2024-08-29 17:41:02 发布

阅读量810

点赞数 25

分类专栏： python爬虫深度解析与实战文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/qq_45261963/article/details/137512306

版权

python爬虫深度解析与实战专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文深入浅出地介绍了Python爬虫的基本原理，涉及HTTP请求过程、URI与URL的区别、超文本概念，以及GET和POST请求方法。通过实例讲解了HTTP请求头和响应头的重要性，帮助读者理解爬虫工作流程。

摘要由CSDN通过智能技术生成

深入浅出一文读懂Python爬虫基本原理

爬虫基本原理

爬虫基本原理

简单介绍：
爬虫是建立在网络连接之上的，网络连接就好比日常生活中在自动售卖机购买商品一样：

购买者只需提供正确的货币，自动贩卖机便会弹出相应的商品给到购买者
如上:计算机（购买者）携带正确的请求信息（货币和所需商品信息）向服务器（自动售卖机）发起一次请求（购买），对应的服务器会根据请求信息返回相应的<HTML、json等等>信息（对应的商品），一次简单的爬取数据就结束了！

HTTP基本原理

在本小节里，我们会简单学习HTTP的基本原理，了解在浏览器地址框中输入URL到服务器返回对应的网页内容发生了什么，对这些内容有了了解后，有助于我们进一步了解爬虫的原理

URI与URL

URI（统一资源标识符）是一个广泛熟知的术语，用来唯一地标识一个资源，无论该资源在哪里，或者如何获取它。URI可以包含多种类型的信息，可以是定位信息也可以是命名信息
URL（统一资源定位符）则是URI的一个子集，更具体地指出资源在网络上的位置和获取方式。URL不仅标识资源，还提供了访问资源的方法，通常包含协议（如http、https、ftp等）、主机名以及路径等信息
URI 包括但不限于URL和URN（Uniform Resource Name）。URN就像资源的唯一名称，理论上可以根据这个名字直接找到资源，但实际上需要某种解析机制才能转换成实际可访问的URL
URL 必须提供足够的信息来定位资源，典型的URL结构包括：协议://主机名[:端口号]/路径[?查询字符串][#片段标识符]。例如，https://www.example.com/path/index.html就是一个标准的URL实例
示例区分：
- URI可能是纯粹的标识符，例如cn:iswy:0-486-27557-4-638，标识了一本特定的图书，但并没有指示出如何在线获取这本书的内容
- URL则能明确地指向一个资源所在的位置，如https://www.example.com/book/0-486-27557-4-638，可以直接通过浏览器打开这个URL来访问该书的相关内容

超文本

我们还需要了解一个概念—超文本（hypertext），我们在浏览器看到的网页就是将超文本解析而成的，其网页源代码是就是一系列HTML代码，包含各式各样的的标签，如img图片标签、p定义段落标签，h1~h6定义不同级别的标题标签等等
浏览器按照一定的规则解析这些标签后，便形成了我们所看到的网页内容，而网页源代码HTML就被称为超文本
例如：在Chrome浏览器打开任意一个网页，如csdn用户页面，右键任意位置并选择“检查”（或直接按键盘上的F12快捷键），即打开了浏览器的开发者工具，在选择Elements选项卡所看到就是当前网页的源代码，这些源代码就是上述的超文本如下：

在这里插入图片描述

HTTP请求过程

在浏览器中输入一个URL ，回车之后便会在浏览器中观察到页面内容。实际上，这个过程是浏览器向网站所在的服务器发送了一个请求，服务器接收到这个请求后进行处理和解析，然后返回对应的响应，接着传回给浏览器，响应里包含了页面的源代码等内容，浏器再对其进行解析，便将网页呈现了出来，如下图：
为了更直观地说明此过程，这里用Chrome浏览器的开发者模式的Nettwork（网络）监听组件来做演示，它可以显示访问当前请求网页时，所发生的所有网络请求和响应
打开Chrome浏览器，右击并选择“检查”项（F12快捷键），即打开浏览器的开发者工具，地址栏访问百度https://www.baidu.com/，输入该URL后回车，观察这个过程中发生了怎样的网络请求？可以看到，在Network页面下方会出现一条一条的信息的条目，其中每一条就代表一次发送请求和接收响应的过程，如下图：

在这里插入图片描述

我们先来观察第一个请求，即www.baidu.com，其中各列的含义如下：
在这里插入图片描述

第一列Name ：请求的名称，一般会将URL最后一部分内容当作名称
第二列Status ：响应的状态码，这里显示的200代表响应是正常的，通过状态码，可以判断发送了请求之后是否得到了正常的响应
第三列 Type：请求的文档类型，这里为document，代表这次请求的是 HTML文档，内容就是一些HTML代码
第四列Initiator：请求源，用来标记请求是由哪个对象或进程发起的
第五列Size：从服务器下载的文件和请求的资源大小，如果是从缓存中获得的资源，则该列显示为from cache（内存缓存）
第六列Time：发起请求到获取响应所用的总时间
第七列 Waterfall：网络请求的可视化瀑布流

点击此条信息，即可看到相关请求更加详细的数据信息，如下：
在这里插入图片描述

首先是General 部分，Request URL为请求的URL,，Request Method为请求的方法， Status Code为响应状态码，Remote Address为远程服务器的地址和端口， Referrer Policy 为Referrer判别策略
继续往下，可以看到，有 Response Headers、Request Headers，这分别代表响应头和请求头，请求头里带有许多请求信息，例如浏览器标识、Cookies、Host 等信息，这是请求的一部分，服务器会根据请求头内的信息判断请求是否合法，进而作出对应的响应，Response Headers包含了服务器的类型、文档类型、日期等信息，浏览器接受到响应后，会解析响应内容，进而呈现出网页内容

请求

请求，由客户端向服务端发出，可以分为部分内容：请求方法（ Request Method）、请求网址( Request URL ）、请求头（ Request Headers）请求体（ Request Body）组成

1.请求方法：
- 常见的请求方法有两种GET、POST
- 在浏览器中直接输入URL并回车，这样就发起了一个 GET 请求，请求的参数会直接包含到URL，例如，在百度中搜索爬虫，这就是一个 GET 请求，链接为https://www.baidu.com/s?ie=UTF-8&wd=爬虫 , 其中 URL 中包含了请求的参数信息，这里参数 wd 表示要搜寻的关键字，POST请求大多在表单提交时发起比如，对于登录表单，输入用户名和密码后，点击“登录”按钮，通常会发起一个 POST请求，其数据通常以表单的形式传输，而不会体现在 URL
- GET与POST请求方法有如下区别：
  - GET请求中的参数包含在 URL 里面，参数数据可以在URL中看到，而 POST 请求的 URL会包含这些数据，数据都是通过表单形式传输的，会包含在请求体中
  - GET请求提交的数据最多只有1024 字节，而POST方式没有限制
- 一般来说，登录时，需要提交用户名和密码，其中包含了用户敏感信息，使用 GET 方式请求的话，用户敏感就会暴露在 URL 里面，造成数据泄露，所以一般以POST方式发送
- 我们平常遇到的绝大部分请求都是GET、POST 请求，另外还有些请求方法，如下表：

请求方法	方法描述
GET	请求页面，并返回页面内容
HEAD	类似于GET请求，只不过返回的响应中没有具体的内容，用于获取报头
POST	用于提交表单或上传文件，数据包含在请求体中
PUT	从客户端向服务器传送的数据取代指定文档中的内容
DELETE	请求服务器删除指定的页面
CONNECT	把服务器当作跳板，让服务器代替客户端访问其他网页
OPTIONS	允许客户端查看服务器的性能
TRACE	回显服务器收到的请求，主要用于测试或诊断

2.请求的网址
- 即统一资源定位符URL（网址），可以唯一确定我们想请求的资源
3.请求头
- 请求头，用来向服务器传递一些的附加信息，比较重要的信息有 Cookie、Referer、User-Agent等等，简单介绍一下常用的头信息，如下：
  - Accept: 请求报头域，用于指定客户端可接受哪些类型的信息
  - Accept-Language：指定客户端可接受的语言类型
  - Accept-Encoding： 指定客户端可接受的编码
  - Host：用于指定资源主机的IP和端口号，其内容为请求URL的原始服务器或网关的位置
  - Cookie：网站为了辨别用户进行会话跟踪而存储在用户本地的数据，它的主要功能是维持当前访问会话
  - Referer: 用来标识这个请求是从哪个页面发过来的，服务器可以拿到这一信息并做相应的处理，如做资源统计，防盗链接处理等
  - User-Agent: 可以是服务器识别客户端使用的操作系统及版本，浏览器及版本信息等。所以在做爬虫时要加上此信息，可以伪装浏览器；不加的话很容易被识别为爬虫
  - Conten-Type：互联网媒体类型，用来表示具体请求中媒体类型信息；如text/html代表HTML格式，image/gif代表GIF图片，application/json代表JSON类型
4.请求头
- 请求体一般POST请求的时候才会有，因为GET请求的信息都在URL里
- 下表为Content-Type与POST提交数据方式的关系：

Content-Type	提交数据方式
application/x-www-forrn-urlencoded	表单数据
multipart/form-data	表单文件上传
application/json	序列化JSON数据
text/xml	XML数据

响应

响应，由服务端返回给客户端，可以分为三部分：响应状态码（ Response Status Code）、响应头( Response Headers ）和响应体（ Response Body）

1.响应状态码：
- 状态码能够判定服务器对请求的响应情况，常见的状态码如下表：

状态码	说明	详解
200	请求成功	服务器已成功处理请求
301	永久重定向	请求的网页已永久移动到新位置，即永久重定向
302	临时重定向	请求的网页临时跳转到其他页面，即临时重定向
400	请求错误	服务器无法解析该请求
401	未授权	请求没有进行身份验证或者验证未通过
403	禁止访问	服务器将拒绝此请求
404	未找到	服务器找不到请求的网页
500	服务器内部错误	服务器遇到错误，无法完成请求
503	服务器不可用	服务器目前无法使用

2.响应头：
- 响应头包含了服务器对请求的一些应答信息，如Server，Content-Type，Set-cookie等等。如下
  - Date：标识响应产生的时间
  - Last-Modified：指定资源的最后修改时间
  - Content-Encoding：指定相应内容编码
  - Server：服务器信息，比如名称、版本号等等
  - Content-Type：文档类型，指定返回的数据类型是，同请求头的内容一致
  - Set-Cookie：设置Cookies，响应头中的Set-Cookie告诉浏览器需要将此内容放在Cookies中，下次请求携带Cookies请求
  - Expires：指定响应的过期时间，可以使代理服务器或者浏览器将加载的内容更新到缓存中
3.响应体：
- 响应体是指服务器返回的具体内容，可以是HTML文档、JSON数据、XML数据、图片（二进制数据）、视频等各种类型的数据