一、URI和URL
URI(Uniform Resource Identifier):统一资源标识符
URL(Universal Resource Locator):统一资源定位符,URL是URI的子集
URN(Universal Resource Name):统一资源名称
二、超文本(hypertext)
超文本就是网页的源代码HTML代码
三、HTTP和HTTPS
- HTTP(Hyper Text Transfer Protocol),即超文本传输协议。HTTP协议是用于从网络传输超文本数据到本地浏览器的传输协议,它能保证高效而准确地传送超文本文档。
- HTTPS(Hyper Text Transfer Protocol over Secure Layer),是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加SSL层,简称HTTPS
HTTPS的安全基础是SSL,通过它传输的内容都是经过SSL加密的,它可以建立一个信息安全通道来保证数据传输的安全以及确认网站真实性,使用了HTTPS的网站都可以通过浏览器地址栏的锁头标识来查看网站认证后的真实信息,也可通过CA机构颁发的安全签章来查询。
四、HTTP请求过程
打开浏览器的开发者工具,并输入一个URL,在NetWork页面下可以看到一个个条目,其中一个条目就代表一次发送请求和接收相应的过程
- Name:请求的名称,一般为URL的最后一部分内容
- Status:响应的状态码
- Type:请求的文档类型
- Initiator:请求源,用来标记请求是哪个对象或进程发起的
- Size:从服务器下载的文件和请求的资源大小。from memory cache表示从缓存中取得资源
- Time:表示从发起请求到获取响应所用的时间
- Waterfall:网络请求可视化瀑布流
点击每个条目可获取详细信息
五、请求
请求是由客户端向服务端发出,分为4部分内容:请求方法(Request Method)、请求的网址(Request URL)、请求头(Request Headers)、请求体(Request Body)
1、请求方法
常见的请求方法有两种:GET和POST
两者的区别:
- GET请求中的参数包含在URL中,数据可以在URL中看到,而POST请求的URL不会包含这些数据,数据都是通过表单形式传输的,会包含在请求体中。
- GET请求提交的数据最多只有1024字节,而POST方式没有限制。
其他请求方法:
方法 | 描述 |
---|---|
GET | 请求页面,并返回页面内容 |
HEAD | 类似于GET请求,只是返回的响应中没有具体内容,用于获取报头 |
POST | 大多用于提交表单或上传文件,数据包含在请求体中 |
PUT | 从客户端向服务器传送的数据取代指定文档中的内容 |
DELETE | 请求服务器删除指定的页面 |
CONNECT | 把服务器当作跳板,让服务器代替客户端访问其他网页 |
OPTIONS | 允许客户端查看服务器的性能 |
TRACE | 回显服务器收到的请求,主要用于测试或诊断 |
2、请求的网址
请求的网址即统一资源定位符URL,它可以唯一确定我们想请求的资源。
3、请求头
请求头用了说明服务器要使用的附加信息,其中比较重要的有Cookie、Referer、User-Agent 等。
下面例举常用的头信息:
- Accept:请求报头域,用于指定客户端可接受哪些类型的信息 。
- Accept-Language :指定客户端可接受的语言类型 。
- Accept-Encoding :指定客户端可接受的内容编码 。
- Host :用于指定请求资源的主机 IP 和端口号,其内容为请求 URL 的原始服务器或网关的位置。 从 HTTP 1. l 版本开始,请求必须包含此内容。
- Cookie :也常用复数形式 Cookies ,这是网站为了辨别用户进行会话跟踪而存储在用户本地的数据 。 它的主要功能是维持当前访问会话 。 例如,我们输入用户名和密码成功登录某个网站后,服务器会用会话保存登录状态信息,后面我们每次刷新或请求该站点的其他页面时,会发现都是登录状态,这就是 Cookies 的功劳 。 Cookies 里有信息标识了我们所对应的服务器的会话,每次浏览器在请求该站点的页面时,都会在请求头中加上 Cookies 并将其发送给服务器,服务器通过 Cookies 识别出是我们自己,并且查出当前状态是登录状态,所以返回结果就是登录之后才能看到的网页内容 。
- Referer :此内容用来标识这个请求是从哪个页面发过来的,服务器可以拿到这一信息并做相应的处理,如做来源统计、防盗链处理等 。
- User-Agent :简称 UA ,它是一个特殊的字符串头,可以使服务器识别客户使用的操作系统及版本 、 浏览器及版本等信息 。 在做爬虫时加上此信息,可以伪装为浏览器;如果不加,很可能会被识别出为爬虫 。
- Content-Type :也叫互联网媒体类型( Internet Media Type )或者 MIME 类型,在 HTTP 协议消息头中,它用来表示具体请求中的媒体类型信息 。
4、请求体
请求体一般承载的内容是POST请求中的表单数据,对于GET请求,请求体为空。
Content-Type和POST提交数据方式的关系:
Content-Type | 提交数据方式 |
---|---|
application/x-www-form-urlencoded | 表单数据 |
multipart/form-data | 表单文件上传 |
application/json | 序列化JSON数据 |
text/xml | XML数据 |
六、响应
响应由服务端返回给客户端,分为三部分:响应状态码(Response Status Code)、响应头(Response Headers)、响应体(Response Body)
1、响应状态码
响应状态码表示服务器的响应状态
状态码 | 说明 | 详情 |
---|---|---|
100 | 继续 | 请求者应当继续提出请求。服务器已收到请求的一部分正在等待其余部分 |
101 | 切换协议 | 请求者已要求服务器切换协议,服务器已确认并准备切换 |
200 | 成功 | 服务器已成功处理了请求 |
201 | 已创建 | 请求成功并且服务器创建了新的资源 |
202 | 已接受 | 服务器接受请求,但尚未处理 |
203 | 非授权信息 | 服务器已成功处理了请求,但返回的信息可能来自另一个源 |
204 | 无内容 | 服务器成功处理了请求,但没有返回任何内容 |
205 | 重置内容 | 服务器成功处理了请求,内容被重置 |
206 | 部分内容 | 服务器成功处理了部分请求 |
300 | 多种选择 | 针对请求,服务器可执行多种操作 |
301 | 永久移动 | 请求的网页已永久移动到新的位置,即永久重定向 |
302 | 临时移动 | 请求的网页暂时跳转到其他页面,即暂时重定向 |
303 | 查看其他位置 | 如果原来的请求是POST,重定向目标文档应该通过GET提取 |
304 | 未修改 | 此次请求返回的页面未修改,继续使用上次的资源 |
305 | 使用代理 | 请求者应该使用代理访问该网页 |
307 | 临时重定向 | 请求的资源临时从其他位置响应 |
400 | 错误请求 | 服务器无法解析该请求 |
401 | 未授权 | 请求没有进行身份验证或验证未通过 |
403 | 禁止访问 | 服务器拒绝此请求 |
404 | 未找到 | 服务器找不到请求的网页 |
405 | 方法禁用 | 服务器禁用了请求指定的方法 |
406 | 不接受 | 无法使用请求的内容响应请求的网页 |
407 | 需要代理授权 | 请求者需要代理授权 |
408 | 请求超时 | 服务器请求超时 |
409 | 冲突 | 服务器在完成请求时发生冲突 |
410 | 已删除 | 请求的资源已永久删除 |
411 | 需要有效长度 | 服务器不接受不含有有效内容长度标头字段的请求 |
412 | 未满足前提条件 | 服务器未满足请求者在请求中设置的其中一个前提条件 |
413 | 请求实体过大 | 请求实体过大,超出服务器处理能力 |
414 | 请求URI过长 | 请求网址过长,服务器无法处理 |
415 | 不支持类型 | 请求格式不被请求页面支持 |
416 | 请求范围不符 | 页面无法提供请求的范围 |
417 | 未满足期望值 | 服务器未满足期望请求标头字段的要求 |
500 | 服务器内部错误 | 服务器遇到错误,无法完成请求 |
2、响应头
响应头包含了服务器对请求的应答信息。
- Data:标识响应产生的时间
- Last-Modified:指定资源的最后修改时间
- Content-Encoding:指定响应内容的编码
- Server:包含服务器的信息,比如名称、版本号等
- Content-Type:文档类型,指定返回的数据类型是什么
- Set-Cookie:设置Cookies。响应头中的Set-Cookie告诉浏览器需要将此内容放在Cookies中,下次请求携带Cookies请求。
- Expires:指定响应的过期时间,可以使代理服务器或浏览器将加载的内容更新到缓冲中。如果再次访问时,就可以直接从缓存中加载,降低服务器负载,缩短加载时间。
3、响应体
响应的正文数据都在响应体中,响应头中的内容就是网页源代码。