深入浅出一文读懂Python爬虫基本原理

本文深入浅出地介绍了Python爬虫的基本原理,涉及HTTP请求过程、URI与URL的区别、超文本概念,以及GET和POST请求方法。通过实例讲解了HTTP请求头和响应头的重要性,帮助读者理解爬虫工作流程。
摘要由CSDN通过智能技术生成

爬虫基本原理

简单介绍:
爬虫是建立在网络连接之上的,网络连接就好比日常生活中在自动售卖机购买商品一样:

  • 购买者只需提供正确的货币,自动贩卖机便会弹出相应的商品给到购买者
  • 如上:计算机(购买者)携带正确的请求信息(货币和所需商品信息)向服务器(自动售卖机)发起一次请求(购买),对应的服务器会根据请求信息返回相应的<HTML、json等等>信息(对应的商品),一次简单的爬取数据就结束了!

HTTP基本原理

在本小节里,我们会简单学习HTTP的基本原理,了解在浏览器地址框中输入URL到服务器返回对应的网页内容发生了什么,对这些内容有了了解后,有助于我们进一步了解爬虫的原理

URI与URL
  • URI(统一资源标识符)是一个广泛熟知的术语,用来唯一地标识一个资源,无论该资源在哪里,或者如何获取它。URI可以包含多种类型的信息,可以是定位信息也可以是命名信息
  • URL(统一资源定位符)则是URI的一个子集,更具体地指出资源在网络上的位置和获取方式。URL不仅标识资源,还提供了访问资源的方法,通常包含协议(如http、https、ftp等)、主机名以及路径等信息
  • URI 包括但不限于URL和URN(Uniform Resource Name)。URN就像资源的唯一名称,理论上可以根据这个名字直接找到资源,但实际上需要某种解析机制才能转换成实际可访问的URL
  • URL 必须提供足够的信息来定位资源,典型的URL结构包括:协议://主机名[:端口号]/路径[?查询字符串][#片段标识符]。例如,https://www.example.com/path/index.html就是一个标准的URL实例
  • 示例区分:
    • URI可能是纯粹的标识符,例如cn:iswy:0-486-27557-4-638,标识了一本特定的图书,但并没有指示出如何在线获取这本书的内容
    • URL则能明确地指向一个资源所在的位置,如https://www.example.com/book/0-486-27557-4-638,可以直接通过浏览器打开这个URL来访问该书的相关内容
超文本
  • 我们还需要了解一个概念—超文本(hypertext),我们在浏览器看到的网页就是将超文本解析而成的,其网页源代码是就是一系列HTML代码,包含各式各样的的标签,如img图片标签、p定义段落标签,h1~h6定义不同级别的标题标签等等
  • 浏览器按照一定的规则解析这些标签后,便形成了我们所看到的网页内容,而网页源代码HTML就被称为超文本
  • 例如:在Chrome浏览器打开任意一个网页,如csdn用户页面,右键任意位置并选择“检查”(或直接按键盘上的F12快捷键),即打开了浏览器的开发者工具,在选择Elements选项卡所看到就是当前网页的源代码,这些源代码就是上述的超文本如下:

在这里插入图片描述

HTTP请求过程

  • 在浏览器中输入一个URL ,回车之后便会在浏览器中观察到页面内容。实际上,这个过程是浏览器向网站所在的服务器发送了一个请求,服务器接收到这个请求后进行处理和解析,然后返回对应的响应,接着传回给浏览器,响应里包含了页面的源代码等内容,浏器再对其进行解析,便将网页呈现了出来,如下图:在这里插入图片描述
  • 为了更直观地说明此过程,这里用Chrome浏览器的开发者模式的Nettwork(网络)监听组件来做演示,它可以显示访问当前请求网页时,所发生的所有网络请求和响应
  • 打开Chrome浏览器,右击并选择“检查”项(F12快捷键),即打开浏览器的开发者工具,地址栏访问百度https://www.baidu.com/,输入该URL后回车,观察这个过程中发生了怎样的网络请求?可以看到,在Network页面下方会出现一条一条的信息的条目,其中每一条就代表一次发送请求和接收响应的过程,如下图:

在这里插入图片描述

我们先来观察第一个请求,即www.baidu.com,其中各列的含义如下:
在这里插入图片描述

  • 第一列Name :请求的名称,一般会将URL最后一部分内容当作名称
  • 第二列Status :响应的状态码,这里显示的200代表响应是正常的,通过状态码,可以判断发送了请求之后是否得到了正常的响应
  • 第三列 Type: 请求的文档类型,这里为document,代表这次请求的是 HTML文档,内容就是一些HTML代码
  • 第四列Initiator: 请求源,用来标记请求是由哪个对象或进程发起的
  • 第五列Size: 从服务器下载的文件和请求的资源大小,如果是从缓存中获得的资源,则该列显示为from cache(内存缓存)
  • 第六列Time:发起请求到获取响应所用的总时间
  • 第七列 Waterfall:网络请求的可视化瀑布流

点击此条信息,即可看到相关请求更加详细的数据信息,如下:
在这里插入图片描述

  • 首先是General 部分,Request URL为请求的URL,,Request Method为请求的方法, Status Code为响应状态码,Remote Address为远程服务器的地址和端口, Referrer Policy 为Referrer判别策略
  • 继续往下,可以看到,有 Response Headers、Request Headers,这分别代表响应头和请求头,请求头里带有许多请求信息,例如浏览器标识、Cookies、Host 等信息,这是请求的一部分,服务器会根据请求头内的信息判断请求是否合法,进而作出对应的响应,Response Headers包含了服务器的类型、文档类型、日期等信息,浏览器接受到响应后,会解析响应内容,进而呈现出网页内容
请求

请求,由客户端向服务端发出,可以分为部分内容:请求方法( Request Method)、 请求网址( Request URL )、请求头( Request Headers) 请求体( Request Body)组成

  • 1.请求方法
    • 常见的请求方法有两种GET、POST
    • 在浏览器中直接输入URL并回车,这样就发起了一个 GET 请求,请求的参数会直接包含到URL,例如,在百度中搜索爬虫 ,这就是一个 GET 请求,链接为https://www.baidu.com/s?ie=UTF-8&wd=爬虫 , 其中 URL 中包含了请求的参数信息,这里参数 wd 表示要搜寻的关键字,POST请求大多在表单提交时发起 比如,对于登录表单,输入用户名和密码后,点击“登录”按钮,通常会发起一个 POST请求,其数据通常以表单的形式传输,而不会体现在 URL
    • GET与POST请求方法有如下区别:
      • GET请求中的参数包含在 URL 里面,参数数据可以在URL中看到,而 POST 请求的 URL会包含这些数据,数据都是通过表单形式传输的,会包含在请求体中
      • GET请求提交的数据最多只有1024 字节,而POST方式没有限制
    • 一般来说,登录时,需要提交用户名和密码,其中包含了用户敏感信息,使用 GET 方式请求的话,用户敏感就会暴露在 URL 里面,造成数据泄露,所以一般以POST方式发送
    • 我们平常遇到的绝大部分请求都是GET、POST 请求,另外还有些请求方法,如下表:
请求方法方法描述
GET请求页面,并返回页面内容
HEAD类似于GET请求,只不过返回的响应中没有具体的内容,用于获取报头
POST用于提交表单或上传文件,数据包含在请求体中
PUT从客户端向服务器传送的数据取代指定文档中的内容
DELETE请求服务器删除指定的页面
CONNECT把服务器当作跳板,让服务器代替客户端访问其他网页
OPTIONS允许客户端查看服务器的性能
TRACE回显服务器收到的请求,主要用于测试或诊断
  • 2.请求的网址
    • 即统一资源定位符URL(网址),可以唯一确定我们想请求的资源
  • 3.请求头
    • 请求头,用来向服务器传递一些的附加信息,比较重要的信息有 Cookie、Referer、User-Agent等等,简单介绍一下常用的头信息,如下:
      • Accept: 请求报头域,用于指定客户端可接受哪些类型的信息
      • Accept-Language:指定客户端可接受的语言类型
      • Accept-Encoding: 指定客户端可接受的编码
      • Host:用于指定资源主机的IP和端口号,其内容为请求URL的原始服务器或网关的位置
      • Cookie:网站为了辨别用户进行会话跟踪而存储在用户本地的数据,它的主要功能是维持当前访问会话
      • Referer: 用来标识这个请求是从哪个页面发过来的,服务器可以拿到这一信息并做相应的处理,如做资源统计,防盗链接处理等
      • User-Agent: 可以是服务器识别客户端使用的操作系统及版本,浏览器及版本信息等。所以在做爬虫时要加上此信息,可以伪装浏览器;不加的话很容易被识别为爬虫
      • Conten-Type:互联网媒体类型,用来表示具体请求中媒体类型信息;如text/html代表HTML格式,image/gif代表GIF图片,application/json代表JSON类型
  • 4.请求头
    • 请求体一般POST请求的时候才会有,因为GET请求的信息都在URL里
    • 下表为Content-Type与POST提交数据方式的关系:
Content-Type提交数据方式
application/x-www-forrn-urlencoded表单数据
multipart/form-data表单文件上传
application/json序列化JSON数据
text/xmlXML数据
响应

响应,由服务端返回给客户端,可以分为三部分:响应状态码( Response Status Code)、响应头( Response Headers )和响应体( Response Body)

  • 1.响应状态码
    • 状态码能够判定服务器对请求的响应情况,常见的状态码如下表:
状态码说明详解
200请求成功服务器已成功处理请求
301永久重定向请求的网页已永久移动到新位置,即永久重定向
302临时重定向请求的网页临时跳转到其他页面,即临时重定向
400请求错误服务器无法解析该请求
401未授权请求没有进行身份验证或者验证未通过
403禁止访问服务器将拒绝此请求
404未找到服务器找不到请求的网页
500服务器内部错误服务器遇到错误,无法完成请求
503服务器不可用服务器目前无法使用
  • 2.响应头
    • 响应头包含了服务器对请求的一些应答信息,如Server,Content-Type,Set-cookie等等。如下
      • Date:标识响应产生的时间
      • Last-Modified:指定资源的最后修改时间
      • Content-Encoding:指定相应内容编码
      • Server:服务器信息,比如名称、版本号等等
      • Content-Type:文档类型,指定返回的数据类型是,同请求头的内容一致
      • Set-Cookie:设置Cookies,响应头中的Set-Cookie告诉浏览器需要将此内容放在Cookies中,下次请求携带Cookies请求
      • Expires:指定响应的过期时间,可以使代理服务器或者浏览器将加载的内容更新到缓存中
  • 3.响应体
    • 响应体是指服务器返回的具体内容,可以是HTML文档、JSON数据、XML数据、图片(二进制数据)、视频等各种类型的数据

友情链接

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值