爬虫基本原理
简单介绍:
爬虫是建立在网络连接之上的,网络连接就好比日常生活中在自动售卖机购买商品一样:
购买者只需提供正确的货币,自动贩卖机便会弹出相应的商品给到购买者
- 如上:
计算机(购买者)携带正确的请求信息(货币和所需商品信息)向服务器(自动售卖机)发起一次请求(购买),对应的服务器会根据请求信息返回相应的<HTML、json等等>信息(对应的商品)
,一次简单的爬取数据就结束了!
HTTP基本原理
在本小节里,我们会简单学习HTTP的基本原理,了解在浏览器地址框中输入URL到服务器返回对应的网页内容
发生了什么,对这些内容有了了解后,有助于我们进一步了解爬虫的原理
URI与URL
URI(统一资源标识符)
是一个广泛熟知的术语,用来唯一地标识一个资源,无论该资源在哪里,或者如何获取它。URI可以包含多种类型的信息,可以是定位信息也可以是命名信息URL(统一资源定位符)
则是URI的一个子集,更具体地指出资源在网络上的位置和获取方式。URL不仅标识资源,还提供了访问资源的方法,通常包含协议(如http、https、ftp等)、主机名以及路径等信息- URI 包括但不限于URL和URN(Uniform Resource Name)。URN就像资源的唯一名称,理论上可以根据这个名字直接找到资源,但实际上需要某种解析机制才能转换成实际可访问的URL
- URL 必须提供足够的信息来定位资源,典型的URL结构包括:协议://主机名[:端口号]/路径[?查询字符串][#片段标识符]。例如,https://www.example.com/path/index.html就是一个标准的URL实例
- 示例区分:
- URI可能是纯粹的标识符,例如cn:iswy:0-486-27557-4-638,标识了一本特定的图书,但并没有指示出如何在线获取这本书的内容
- URL则能明确地指向一个资源所在的位置,如https://www.example.com/book/0-486-27557-4-638,可以直接通过浏览器打开这个URL来访问该书的相关内容
超文本
- 我们还需要了解一个概念—超文本(hypertext),我们在浏览器看到的网页就是将超文本解析而成的,其网页源代码是就是一系列HTML代码,包含各式各样的的标签,如img图片标签、p定义段落标签,h1~h6定义不同级别的标题标签等等
- 浏览器按照一定的规则解析这些标签后,便形成了我们所看到的网页内容,而网页源代码HTML就被称为超文本
- 例如:在Chrome浏览器打开任意一个网页,如csdn用户页面,右键任意位置并选择“检查”(或直接按键盘上的F12快捷键),即打开了浏览器的开发者工具,在选择Elements选项卡所看到就是当前网页的源代码,这些源代码就是上述的超文本如下:
HTTP请求过程
- 在浏览器中输入一个URL ,回车之后便会在浏览器中观察到页面内容。实际上,这个过程是浏览器向网站所在的服务器发送了一个请求,服务器接收到这个请求后进行处理和解析,然后返回对应的响应,接着传回给浏览器,响应里包含了页面的源代码等内容,浏器再对其进行解析,便将网页呈现了出来,如下图:
- 为了更直观地说明此过程,这里用Chrome浏览器的开发者模式的Nettwork(网络)监听组件来做演示,它可以显示访问当前请求网页时,所发生的所有网络请求和响应
- 打开Chrome浏览器,右击并选择“检查”项(F12快捷键),即打开浏览器的开发者工具,地址栏访问百度https://www.baidu.com/,输入该URL后回车,观察这个过程中发生了怎样的网络请求?可以看到,在Network页面下方会出现一条一条的信息的条目,其中每一条就代表一次发送请求和接收响应的过程,如下图:
我们先来观察第一个请求,即www.baidu.com,其中各列的含义如下:
- 第一列Name :请求的名称,一般会将URL最后一部分内容当作名称
- 第二列Status :响应的状态码,这里显示的200代表响应是正常的,通过状态码,可以判断发送了请求之后是否得到了正常的响应
- 第三列 Type: 请求的文档类型,这里为document,代表这次请求的是 HTML文档,内容就是一些HTML代码
- 第四列Initiator: 请求源,用来标记请求是由哪个对象或进程发起的
- 第五列Size: 从服务器下载的文件和请求的资源大小,如果是从缓存中获得的资源,则该列显示为from cache(内存缓存)
- 第六列Time:发起请求到获取响应所用的总时间
- 第七列 Waterfall:网络请求的可视化瀑布流
点击此条信息,即可看到相关请求更加详细的数据信息,如下:
- 首先是General 部分,Request URL为请求的URL,,Request Method为请求的方法, Status Code为响应状态码,Remote Address为远程服务器的地址和端口, Referrer Policy 为Referrer判别策略
- 继续往下,可以看到,有 Response Headers、Request Headers,这分别代表响应头和请求头,请求头里带有许多请求信息,例如浏览器标识、Cookies、Host 等信息,这是请求的一部分,服务器会根据请求头内的信息判断请求是否合法,进而作出对应的响应,Response Headers包含了服务器的类型、文档类型、日期等信息,浏览器接受到响应后,会解析响应内容,进而呈现出网页内容
请求
请求,由客户端向服务端发出,可以分为部分内容:请求方法( Request Method)、 请求网址( Request URL )、请求头( Request Headers) 请求体( Request Body)组成
- 1.请求方法:
- 常见的请求方法有两种GET、POST
- 在浏览器中直接输入URL并回车,这样就发起了一个 GET 请求,请求的参数会直接包含到URL,例如,在百度中搜索爬虫 ,这就是一个 GET 请求,链接为https://www.baidu.com/s?ie=UTF-8&wd=爬虫 , 其中 URL 中包含了请求的参数信息,这里参数 wd 表示要搜寻的关键字,POST请求大多在表单提交时发起 比如,对于登录表单,输入用户名和密码后,点击“登录”按钮,通常会发起一个 POST请求,其数据通常以表单的形式传输,而不会体现在 URL
- GET与POST请求方法有如下区别:
- GET请求中的参数包含在 URL 里面,参数数据可以在URL中看到,而 POST 请求的 URL会包含这些数据,数据都是通过表单形式传输的,会包含在请求体中
- GET请求提交的数据最多只有1024 字节,而POST方式没有限制
- 一般来说,登录时,需要提交用户名和密码,其中包含了用户敏感信息,使用 GET 方式请求的话,用户敏感就会暴露在 URL 里面,造成数据泄露,所以一般以POST方式发送
- 我们平常遇到的绝大部分请求都是GET、POST 请求,另外还有些请求方法,如下表:
请求方法 | 方法描述 |
---|---|
GET | 请求页面,并返回页面内容 |
HEAD | 类似于GET请求,只不过返回的响应中没有具体的内容,用于获取报头 |
POST | 用于提交表单或上传文件,数据包含在请求体中 |
PUT | 从客户端向服务器传送的数据取代指定文档中的内容 |
DELETE | 请求服务器删除指定的页面 |
CONNECT | 把服务器当作跳板,让服务器代替客户端访问其他网页 |
OPTIONS | 允许客户端查看服务器的性能 |
TRACE | 回显服务器收到的请求,主要用于测试或诊断 |
- 2.请求的网址
- 即统一资源定位符URL(网址),可以唯一确定我们想请求的资源
- 3.请求头
- 请求头,用来向服务器传递一些的附加信息,比较重要的信息有 Cookie、Referer、User-Agent等等,简单介绍一下常用的头信息,如下:
- Accept: 请求报头域,用于指定客户端可接受哪些类型的信息
- Accept-Language:指定客户端可接受的语言类型
- Accept-Encoding: 指定客户端可接受的编码
- Host:用于指定资源主机的IP和端口号,其内容为请求URL的原始服务器或网关的位置
- Cookie:网站为了辨别用户进行会话跟踪而存储在用户本地的数据,它的主要功能是维持当前访问会话
- Referer: 用来标识这个请求是从哪个页面发过来的,服务器可以拿到这一信息并做相应的处理,如做资源统计,防盗链接处理等
- User-Agent: 可以是服务器识别客户端使用的操作系统及版本,浏览器及版本信息等。所以在做爬虫时要加上此信息,可以伪装浏览器;不加的话很容易被识别为爬虫
- Conten-Type:互联网媒体类型,用来表示具体请求中媒体类型信息;如text/html代表HTML格式,image/gif代表GIF图片,application/json代表JSON类型
- 请求头,用来向服务器传递一些的附加信息,比较重要的信息有 Cookie、Referer、User-Agent等等,简单介绍一下常用的头信息,如下:
- 4.请求头
- 请求体一般POST请求的时候才会有,因为GET请求的信息都在URL里
- 下表为Content-Type与POST提交数据方式的关系:
Content-Type | 提交数据方式 |
---|---|
application/x-www-forrn-urlencoded | 表单数据 |
multipart/form-data | 表单文件上传 |
application/json | 序列化JSON数据 |
text/xml | XML数据 |
响应
响应,由服务端返回给客户端,可以分为三部分:响应状态码( Response Status Code)、响应头( Response Headers )和响应体( Response Body)
- 1.响应状态码:
- 状态码能够判定服务器对请求的响应情况,常见的状态码如下表:
状态码 | 说明 | 详解 |
---|---|---|
200 | 请求成功 | 服务器已成功处理请求 |
301 | 永久重定向 | 请求的网页已永久移动到新位置,即永久重定向 |
302 | 临时重定向 | 请求的网页临时跳转到其他页面,即临时重定向 |
400 | 请求错误 | 服务器无法解析该请求 |
401 | 未授权 | 请求没有进行身份验证或者验证未通过 |
403 | 禁止访问 | 服务器将拒绝此请求 |
404 | 未找到 | 服务器找不到请求的网页 |
500 | 服务器内部错误 | 服务器遇到错误,无法完成请求 |
503 | 服务器不可用 | 服务器目前无法使用 |
- 2.响应头:
- 响应头包含了服务器对请求的一些应答信息,如Server,Content-Type,Set-cookie等等。如下
- Date:标识响应产生的时间
- Last-Modified:指定资源的最后修改时间
- Content-Encoding:指定相应内容编码
- Server:服务器信息,比如名称、版本号等等
- Content-Type:文档类型,指定返回的数据类型是,同请求头的内容一致
- Set-Cookie:设置Cookies,响应头中的Set-Cookie告诉浏览器需要将此内容放在Cookies中,下次请求携带Cookies请求
- Expires:指定响应的过期时间,可以使代理服务器或者浏览器将加载的内容更新到缓存中
- 响应头包含了服务器对请求的一些应答信息,如Server,Content-Type,Set-cookie等等。如下
- 3.响应体:
- 响应体是指服务器返回的具体内容,可以是HTML文档、JSON数据、XML数据、图片(二进制数据)、视频等各种类型的数据