2.7.1 网络多层协议章应用层协议

_Ap0stoL

已于 2024-10-01 18:43:59 修改

阅读量5k

点赞数 13

文章标签：网络 javaee java

于 2024-09-30 12:59:54 首次发布

本文链接：https://blog.csdn.net/qq_40533485/article/details/142654408

版权

0.0 概念

我们已经学过 TCP/IP , 已经知道目前数据能从客户端进程经过路径选择跨网络传送到服务器端进程 [ IP+Port ]. ,可是只是把数据传过去远远不够,我们把数据从A端传送到B端, TCP/IP 解决的是顺丰的功能，而两端还要对数据进行加工处理或者使用，所以我们还需要一层协议，不关心通信细节，关心应用细节！

1.0 应用层与自定义协议

这是后端开发必知必会,后端开发多数是围绕应用层和传输层的使用

这一层有很多线程的协议(比如HTTP协议,java做网站离不开HTTP)

也有很多时候,是需要程序员自己定义协议,下面展开讨论自定义协议

开发时设计自定义协议的流程

先要有一个需求,有个场景(根据需求来,产品经理提好)
明确具体的请求和响应的格式
- 客户端给服务器发一个请求,服务器收到请求就给服务器返回一个响应,请求本质就是一个明确格式的字符串,通常结尾加’\n’好读取,数据要分隔特定的段会规定如读到’\3’ 就是分段的分隔协议
- 所谓明确格式就是看你按照啥样的方式构造出一个字符串,后续这个字符串就可以作为tcp和udp 的payload 进行传输,另一方面服务器就可以对字符串进行解析
- 网络上传输的数据本质就是字符串(准确来说是以二进制的字符串传输),比如我们写的java代码,都是各种对象,但是在最后发送数据的时候,就是把对象转成字符串(二进制或者文本)者称为**[序列化],收到数据的时候也需要把(二进制/文本)的字符串转化回对象这称为[反序列化]**, 序列化和反序列化的格式是任意进行约定的
剩下的就是指定客户端和服务器和测试把规格定下来后联调,测试在这个环境中服务器和客户端是否能相互正确通信,然后再各自开发

设计协议时的考虑

对于协议来说，重点需要约定好如何解析，一般是根据字段的特点来设计协议：

对于定长的字段：

可以基于长度约定，如int字段，约定好4个字节即可

对于不定长的字段：

可以约定字段之间的间隔符，或最后一个字段的结束符，如换行符间隔，\3符号结束等等
除了该字段“数据”本身，再加一个长度字段，用来标识该“数据”长度；即总共使用两个字段：
- “数据”字段本身，不定长，需要通过“长度”字段来解析；
- “长度”字段，标识该“数据”的长度，即用于辅助解析“数据”字段；

封装/分用 vs 序列化/反序列化

一般来说，在网络数据传输中，发送端应用程序，发送数据时的数据转换（如java一般就是将对象转换为某种协议格式），即对发送数据时的数据包装动作来说：

如果是使用知名协议，这个动作也称为封装
如果是使用小众协议（包括自定义协议），这个动作也称为序列化，一般是将程序中的对象转换为特定的数据格式。

接收端应用程序，接收数据时的数据转换，即对接收数据时的数据解析动作来说：

如果是使用知名协议，这个动作也称为分用
如果是使用小众协议（包括自定义协议），这个动作也称为反序列化，一般是基于接收数据特定的格式，转换为程序中的对象

2.0 应用层的不同协议

XMl 格式

是以成对的标签,来表示"键值对"信息 , 同时标签支持嵌套,就可以构成一些更复杂的树形结构数据

示例

//请求
<request> //开始标签
    //嵌套标签
    <userid>1234</userid>  //key: userid, value:1234
    具体的内容可以继续嵌套标签
	<userid>12345</userid> //key: userid, value:12345
</request> //结束标签

优点:

xml非常清晰的把传输数据的结构表示了出来

缺点:

表示数据需要引入大量标签,看起来繁琐,同时也会占用大量网络带宽

xml与http的区别

xml里面的标签都是程序员自定义的
html 里面的标签,都是有一套标准规定的,html可以视为xml的特化版本

Json 数据格式

概念

最流行的数据组织格式,尤其是网络编程中
本质上也是一种键值对,看起来比xml干净不少
用: 分隔key和value,用逗号分隔键值对
用{ } 表示键值对
用[ ]表示数组,数组里的每个元素可以是数字也可以是字符串,还可以在数组中嵌套[ ]和{ }
json对于换行不敏感,全部放在一行也行,因此一般在网络传输的时候,会对json 进行压缩(去掉不必要的换行和空格),并且同时把所有数据放到一行,整体占用的带宽就更低了(影响到可读性),现如今有很多json格式化工具.

请求 : 请求服务器分配资源

{
    userid:1234,
    position:"xxxx",
    
}

响应 : 服务器响应客户端请求

[
    {
        name:'yzy',
        image:'1.jpg',
        distance:'1km'
    },
    {
        name:'ap0',
        inmage:'2.jpg',
        dinstance:'2km'
    }
    
]

优点

相比于xml,表示的数据简介很多
可读性非常的好,方便程序员观察中间结果,方便调试问题(如果客户端请求出错啥的,可以直接把json打印出来)

劣势

终究是需要一点带宽来传输key的名字

protobuffer

概念:

谷歌提出来的一套二进制的数据序列化方式
直接按照二进制的方式约定某几个字节表示哪个属性

优点:

能最大程度的节省空间,不必传输(key),根据位置和长度区分每个属性
节省带宽,最大化效率

缺点:

二进制数据,无法肉眼直接观察, 不方便调试
使用起来复杂,需要专门编写一个proto文件,有一系列语法规则,描述数据格式是咋样的,在通过人家提供的工具,把proto文件转化成一些代码,再签嵌入到程序中使用

使用范围:

适用于对性能要求高的场景(如高并发,大数据),牺牲开发效率,提升运行效率,运行效率可以靠氪金提高硬件资源,但是开发效率得招更多的人

3.0 DNS

DNS由来

上网需要访问服务器,要知道服务器ip,ip地址是一串数字,虽然这个数字点分十进制已经清晰不少了,但是任然不方便人么记和传播,于是就有了使用单词和来代替ip地址(如使用taobao,sougou等单词来代替ip,这些单词称为域名)
为了保证域名的唯一性,域名往往是分级的www.baidu.com com是一级域名(com公司 edu教育 cn中国),baidu是二级域名 www是三级域名
但是域名是给人看的,机器只认识ip,因此需要一套系统用来自动翻译ip地址-- DNS, 最早的解析系统是一个文件host Winodws/System32/drivers/etc/host,每一个域名对应一个ip,但是这非常麻烦,一旦有新的网站上线和旧的网站下线,这个host就要修改就非常麻烦,因此保留了电脑的host文件但是内容没了,接着把内容放到了专门的服务器上,大家都已这个服务器的host文件为准,新的网站要去这个服务器报备,旧的网站注销也要去这个服务器报备,这个服务器用于维护,我们在上网的时访问某个域名就要先访问人家的服务器,把域名对应的ip获取了,就可以访问目标网站了
DNS为了能够承载高并发访问有两个原则: 开源,节流
- 1 节流 : 每个电脑上在进域名解析的时候,都会有缓存,我访问搜狗10此次,只有一次真的访问了DNS,后面9次都无需访问
- 2 开源: 全世界会搭建出很多"DNS镜像服务器"(一般是大厂或者网络运行商),从最初的DNS服务器同步数据,这时候访问镜像和访问DNS服务器效果一样,这样就分摊了请求压力,原服务器我们称为根域名服务器

概念

DNS，即Domain Name System，域名系统。DNS是一整套从域名映射到IP的系统。

TCP/IP中使用IP地址来确定网络上的一台主机，但是IP地址不方便记忆，且不能表达地址组织信息，于是人们发明了域名，并通过域名系统来映射域名和IP地址。

域名

域名是一个字符串，如 www.baidu.com ， hr.nowcoder.com

域名系统为一个树形结构的系统，包含多个根节点。其中：

根节点即为根域名服务器，最早IPv4的根域名服务器全球只有13台，IPv6在此基础上扩充了数量。
子节点主要由各级DNS服务器，或DNS缓存构成
- DNS域名服务器，即提供域名转换为IP地址的服务器。
- 浏览器、主机系统、路由器中都保存有DNS缓存
- Windows系统的DNS缓存在 C:\Windows\System32\drivers\etc\hosts 文件中，Mac/Linux系统的DNS缓存在 /etc/hosts 文件中

解析过程

网络通信发送数据时，如果使用目的主机的域名，需要先通过域名解析查找到对应的IP地址：

域名解析的过程，可以简单的理解为：发送端主机作为域名系统树形结构的一个子节点，通过域名信息，从下到上查找对应IP地址的过程。如果到根节点（根域名服务器）还找不到，即找不到该主机。
域名解析使用DNS协议来传输数据。DNS协议是应用层协议，基于传输层UDP或TCP协议来实现。

影响

DNS在美国那,根服务器在他们那,因此需要发展ipv6能摆除ipv4被美国掌控,和DNS被美国掌控,ipv6有一套新的DNS

手动更改NDS

右键网络–高级网络设置–更多网络适配器选项–wlan–属性–tcp ipv4–8.8.8.8(谷歌维护的一套dns镜像,比较稳定)

4.0 HTTP

4.1 HTTP是什么

概念

HTTP (全称为 “超文本传输协议–>除了字符串还能传输图片,字体,视频能其他文件”) 是一种应用非常广泛的应用层协议.
使用浏览器打开网站这个过程是http来支持的
使用手机app,加载数据,这个过程大概率也是http来支持的
http本质就是特定格式的tcp请求

java与其他语言区别

java静态强类型
js动态弱类型
py是动态强类型

一个网站构成

前端+后端

前端: HTML(描述网页结构,即页面上有啥,是骨)+CSS(描述网页样式,即长啥样,包括不限于字体,颜色背景位置大小,是皮)+javaScript(描述网页行为,用于用户交互,是魂), HTML CSS JS都是在网页上执行的,都是在访问服务器的时候,从服务器下载到浏览器上,然后才能显示执行,其他应用程序,需要下载安装,才能使用,网页可以随时更新,但是性能有限很难提供一些复杂的方式
后端:HTTP服务器(http响应往往是一个html内容)

如何学习

学习http需要学习协议格式,需要使用抓包工具(本质是一个代理工具:把需求和资源交给代理工具,代理工具去做,作为代理,它会非常清楚我要做什么是,这里的代理是连接浏览器和http服务器之间,把请求发给抓包工具,载发给服务器,服务器再把响应给抓包工具,抓包工具在给浏览器,因此抓包工具就可以获取http的报文信息,抓包工具是一种代理,但代理不一定是抓包工具)

正向代理:代理客户端的,比如:我们翻墙开的vpn就是代理,打游戏开的加速器也是代理,steam++也是代理
还有代理程序是代理服务器的称为"反向代理",反向代理代理的是服务器像客户端发请求的
抓包工具很多,比如最知名的:wireshark(功能强大,使用起来更复杂),学习推荐使用Fiddler,建议去官网下载,否则容易下载到p2p下载器,导致下载到一堆流氓软件,下载经典版就够了(不收费)
Fiddler 要设置下https的抓取否则抓不到–tool–options–https选项–decrype–把下面的选项全部勾了
raw查看原生https的传输和响应,https加密是成为二进制解密恢复时成为文本(但是往往是压缩的,要点下黄色的按钮,使其解压缩),https响应的往往是html css js,应为网页加载的东西是从服务器下载下来的

4.2 抓包结果

HTTP请求

首行: [方法] + [url] + [版本]
- GET就是方法
- url 就是唯一资源定位符用来描述网络资源,明确了你要访问的服务器是啥,要访问的服务器资源是啥
- 版本是HTTPS的版本号
- 使用空格来分割
Header(键值对): 请求的属性, 冒号分割的键值对;每组属性之间使用\n分隔;遇到空行表示Header部分结束
空行
Body: 空行后面的内容都是Body. Body允许为空字符串. 如果Body存在, 则在Header中会有一个Content-Length属性来标识Body的长度;

HTTP响应

首行: [版本号] + [状态码] + [状态码解释]
Header: 请求的属性, 冒号分割的键值对;每组属性之间使用\n分隔;遇到空行表示Header部分结束
空行
Body: 空行后面的内容都是Body. Body允许为空字符串. 如果Body存在, 则在Header中会有一个Content-Length属性来标识Body的长度; 如果服务器返回了一个html页面, 那么html页面内容就是在body中. (http响应的body比较重要有html,css,jsjson,图片,字体…)

为什么 HTTP 报文中要存在 “空行”?

因为 HTTP 协议并没有规定报头部分的键值对有多少个. 空行就相当于是 “报头的结束标记”, 或者是 “报头和正文之间的分隔符”.
HTTP 在传输层依赖 TCP 协议, TCP 是面向字节流的. 如果没有这个空行, 就会出现 “粘包问题”.

4.3 HTTP 请求 (Request)

认识 URL

URL 基本格式

平时我们俗称的 “网址” 其实就是说的 URL (Uniform Resource Locator 统一资源定位符). 互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它. URL 的详细规则由因特网标准RFC1738 进行了约定. (https://datatracker.ietf.org/doc/html/rfc1738)

**一个具体的URL: **

https://v.bitedu.vip/personInf/student?userId=10000&classId=100

URL: 协议名://ip地址:端口号/路径?query string
https : 协议方案名. 常见的有 http 和 https, 也有其他的类型. (例如访问 mysql 时用的 jdbc:mysql )
user:pass : 登陆信息. 现在的网站进行身份认证一般不再通过 URL 进行了. 一般都会省略
v.bitedu.vip : 服务器地址. 此处是一个 “域名”, 域名会通过 DNS 系统解析成一个具体的 IP 地址. (通过 ping 命令可以看到, v.bitedu.vip 的真实 IP 地址为 118.24.113.28 ) , 这里的ip可以是外网ip,也可以是内网ip(访问局域网中的设备),还可以是环回ip
端口号: 上面的 URL 中端口号被省略了. 当端口号省略的时候, 浏览器会根据协议类型自动决定使用哪个端口. 例如 http 协议默认使用 80 端口, https 协议默认使用 443 端口
/personInf/student : 带层次的文件路径. 即为要访问的文件路径
userId=10000&classId=100 : 查询字符串(query string). 即访问资源是要带有什么参数,就是对要访问的资源的要求,拆线呢字符串以?开始,本质是一个键值对结构. 键值对之间使用 & 分隔. 键和值之间使用 = 分隔
片段标识: 此 URL 中省略了片段标识. 片段标识主要用于文档类网站页面内片段跳转,标识了当前在哪个页面的哪个片段. (例如 Vue 官方文档: https://c n.vuejs.org/v2/guide/#%E8%B5%B7%E6%AD%A5, 通过不同的片段标识跳转到文档的不同章节)

关于 query string

query string 中的内容是键值对结构. 其中的 key 和 value 的取值和个数, 完全都是程序猿自己约定的. 我们可以通过这样的方式来自定制传输我们需要的信息给服务器.

URL 中的可省略部分

协议名: 可以省略, 省略后默认为 http://
协议名: 可以省略, 省略后默认为 http:// ip 地址 / 域名: 在 HTML 中可以省略(比如 img, link, script, a 标签的 src 或者 href 属性). 省略后表示服务器的 ip / 域名与当前 HTML 所属的 ip / 域名一致, 比如:如果把ip省略,则会访问当前服务器地址,比如访问b站必须带有bilibili域名.响应内容就是bilibili主页的html,这个html里面会触发一些其他的http请求,这些后续出发的http请求可以省略ip,省略ip就相当于使用和刚才获取bilibili html一样的ip
端口号: 可以省略且相当常见. 省略后如果是 http 协议, 端口号自动设为 80; 如果是 https 协议, 端口号自动设为 443 (号码越小资历越老)
带层次的文件路径: 可以省略. 省略后相当于 /(根目录) 有些服务器会在发现 / 路径的时候自动访问 /index.html (根节点默认对应到服务器的主页,这是个约定俗成的规矩)
查询字符串: 可以省略,根据后端代码处理(后端默认给的条件)
片段标识: 可以省略

关于 URL encode

为什么有encode

你在搜索引擎上面搜索东西的时候,会在参数上填东西,本质是个转义字符的参数,如果不转义可能会使搜索的参数本来就是原来url特殊的字符导致搜索失败等问题
像 / ? : 等这样的字符, 已经被url当做特殊意义理解了. 因此这些字符不能随意出现.
比如, 某个参数中需要带有这些特殊字符, 就必须先对特殊字符进行转义.

一个中文字符由 UTF-8 或者 GBK 这样的编码方式构成, 虽然在 URL 中没有特殊含义, 但是仍然需要进行转义. 否则浏览器可能把 UTF-8/GBK 编码中的某个字节当做 URL 中的特殊符号.

转义规则:

转义的规则如下: 将需要转码的字符的每个字节都用16进制表达出来(注意不是转成16进制,而是一个字节一个字节的编程16进制)，然后从右到左,每两个16进制编码,前面加上%，编码成%XY格式
encode本质就是转义字符,但不是 / 那题套的转义规则
urldecode就是urlencode的逆过程;

认识 “方法” (method)

这里插入一个图片

1. GET 方法

GET 是最常用的 HTTP 方法. 常用于获取服务器上的某个资源

在浏览器中直接输入 URL, 此时浏览器就会发送出一个 GET 请求

另外, HTML 中的 link, img, script 等标签, 也会触发 GET 请求.

GET 请求的特点

首行的第一部分为 GET
URL 的 query string 可以为空, 也可以不为空
header 部分有若干个键值对结构
body 部分一般为空.

GET 长度问题

网上有些资料上描述: get请求长度最多1024kb 这样的说法是错误的
HTTP 协议由 RFC 2616 标准定义, 标准原文中明确说明: “Hypertext Transfer Protocol – HTTP/1.1,” does not specify any requirement for URL length
没有对 URL 的长度有任何的限制
实际 URL 的长度取决于浏览器的实现和 HTTP 服务器端的实现. 在浏览器端, 不同的浏览器最大长度是不同的, 但是现代浏览器支持的长度一般都很长; 在服务器端, 一般这个长度是可以配置的.

2. POST 方法

概念

向服务器传输一个东西
POST 方法也是一种常见的方法. 多用于提交用户输入的数据给服务器(例如登陆页面). 通过 HTML 中的 form 标签可以构造 POST 请求, 或者使用 JavaScript 的 ajax 也可以构造 POST 请求.

常用场景

登录和上传

POST 请求的特点

首行的第一部分为 POST
URL 的 query string 一般为空 (也可以不为空)
header 部分有若干个键值对结构.
body 部分一般不为空. body 内的数据格式通过 header 中的 Content-Type 指定. body 的长度由 header 中的 Content-Length 指定.
会有空行分割header和body,描述了body从哪里开始
body里的格式其实可以有很多种.有些可能和 url的query string很类似,本质也是键值对,转化
在登陆场景中,这里会包含当前这次登录的用户名和密码(加密,且加密的一般不可逆,服务器只需要对应相应的密文,且服务器和数据库存的也是你密码的密文不是密码本生)登录验证信息

3.经典面试题

谈谈 GET 和 POST 的区别

语义不同: GET 一般用于获取数据, POST 一般用于提交数据.
GET 的 body 一般为空, 需要传递的数据通过 query string 传递, POST 的 query string 一般为空, 需要传递的数据通过 body 传递
GET 请求一般是幂等的, POST 请求一般是不幂等的. (如果多次相同请求得到的结果一样, 就视为请求是幂等的,广告一般就是不幂等的要根据用户,时间,地点,广告投放情况等).
GET 可以被缓存, POST 不能被缓存. (这一点也是承接幂等性).即放在url的query string中用户能看到(浏览器也能收藏),放到body中,用户不能看到(收藏夹也不能收藏 )

补充说明:

关于语义: GET 完全可以用于提交数据, POST 也完全可以用于获取数据.
关于幂等性: 标准建议 GET 实现为幂等的. 实际开发中 GET 也不必完全遵守这个规则(主流网站都有 “猜你喜欢” 功能, 会根据用户的历史行为实时更新现有的结果.
关于安全性: 有些资料上说 “POST 比 GET 请安全”. 这样的说法是不科学的. 是否安全取决于前端在传输密码等敏感信息时是否进行加密, 和 GET POST 无关.,GET和POST 都能获取数据,只不过用户在网页看不看的到的情况
关于传输数据量: 有的资料上说 “GET 传输的数据量小, POST 传输数据量大”. 这个也是不科学的, 标准没有规定 GET 的 URL 的长度, 也没有规定 POST 的 body 的长度. 传输数据量多少, 完全取决于不同浏览器和不同服务器之间的实现区别.
关于传输数据类型: 有的资料上说 “GET 只能传输文本数据, POST 可以传输二进制数据”. 这个也是不科学的. GET 的 query string 虽然无法直接传输二进制数据, 但是可以针对二进制数据进行 url encode.

4. 其他方法

PUT 与 POST 相似，只是具有幂等特性，一般用于更新
DELETE 删除服务器指定资源
OPTIONS 返回服务器所支持的请求方法
HEAD 类似于GET，只不过响应体不返回，只返回响应头
TRACE 回显服务器端收到的请求，测试的时候会用到这个
CONNECT 预留，暂无使用

这些方法的 HTTP 请求可以使用 ajax 来构造. (也可以通过一些第三方工具)

任何一个能进行网络编程的语言都可以构造 HTTP 请求. 本质上就是通过 TCP socket 写入一个符合 HTTP 协议规则的字符串.

认识请求 “报头” (header)

概念

header 的整体的格式也是 “键值对” 结构.
每个键值对占一行. 键和值之间使用 :+空格 分割
query string/body 中的键值对完全是由程序员自己定义的,header中的键值对,主要是标准规定的(有哪些键,对应取值有哪些都是有规定的),也有能自定义的

报头的种类有很多, 此处仅介绍几个常见的.

Host

表示服务器主机的地址和端口.
通常情况下 Host 里面的内容与url的是一致的,但是也有例外,比如使用了代理,就不一定一样了

Content-Length

表示 body 中的数据长度(字节),从空行开始数,数Content-Length就是body的范围.
有的请求有body,有的请求无body,如果没有body这个字段可以没有,但是如果有body,则这个字段必须有,否则就是非法请求
描述的意义:为了解决粘包问题,应为http是基于tcp,tcp是基于字节流的,如果浏览器连续给服务器发送多个http请求的话,或者服务器连续返回多个http,放到一个缓冲区如果不知道范围就会发生粘包问题,解决方法如下
- **使用分隔符:**GET请求无body直接用空行作为结束标记(相当于分隔符)
- **使用长度:**POST等有body,服务器和浏览器要通过Content-Length来区分从哪到哪为完整的一个HTTP数据,

Content-Type

概念

表示请求的 body 中的数据格式.

争对这个数据,到底如何解析,如何解释

http协议有很多用途,传输数据也很多

常见选项:

application/x-www-form-urlencoded: body的格式就和query string一样**(比如登录时)** ,form 表单提交的数据格式. 此时 body 的格式形如:

title=test&content=hello

multipart/form-data: form 表单提交的数据格式(在 form 标签中加上 enctyped="multipart/form-data" . 通常用于提交图片/文件. body 格式形如:

Content-Type:multipart/form-data; boundary=----WebKitFormBoundaryrGKCBY7qhFd3TrwA 
------WebKitFormBoundaryrGKCBY7qhFd3TrwA 
Content-Disposition: form-data; name="text" 
title 
------WebKitFormBoundaryrGKCBY7qhFd3TrwA 
Content-Disposition: form-data; name="file"; filename="chrome.png" 
Content-Type: image/png 
PNG ... content of chrome.png ... 
------WebKitFormBoundaryrGKCBY7qhFd3TrwA--

application/json: 数据为 json 格式,很多网站都广泛使用jason. body 格式形如:

{"username":"123456789","password":"xxxx","code":"jw7l","uuid":"d110a05ccde64b16
a861fa2bddfdcd15"}

html: text/html
css: text/css
js: application/javascript
图片: image/png image image/jpg
纯文本: text/plain

关于 Content-Type 的详细情况: https://developer.mozilla.org/en-US/docs/Web/HTTP/Basics_ of_HTTP/MIME_types

一个刷新知识

浏览器的F5刷新是普通刷新
Ctrl+F5为强制刷新,会抛弃原有缓存的内容,强制重新访问服务器
一个网站很多资源是不变的(css图片,js等是很少变化的),为了提高网站加载速度,就会在第一次访问后,把这些资源缓存在本地(你浏览器的硬盘上),下次访问就不需要网络了

User-Agent (简称 UA)

概念

表示浏览器/操作系统的属性. 形如

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/91.0.4472.77 Safari/537.36

解释

Windows NT 10.0; Win64; x64 表示操作系统信息
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36 表示浏览器信息
现在UA没以前那么有用,UA的作用主要是告诉浏览器我现在用啥系统浏览网站,服务器好做判断你是老版本浏览器还是新版本浏览器(当年有些人不喜欢那种花里胡哨的复杂网页)

Referer

表示这个页面是从哪个页面跳转过来的. 形如

https://v.bitedu.vip/login

如果直接在浏览器中输入URL, 或者直接通过收藏夹访问页面时是没有 Referer 的.
如果你是点击了网页的某个内容,产生了跳转,就会产生referer
Refer是明文传输的

Cookie

概念

为了保证安全,浏览器会对网页做限制(禁止网页访问硬盘),但这样你方法问硬盘的缓存就不能存在本地硬盘了
为了保证安全,同时又能存储数据,浏览器就提供了Cookie功能(后来又有了其他功能)
Cookie是按照键值对的方式来存储一些字符串的.这些键值对往往是服务器返回的,浏览器把这些键值对(键是名称值为内容)按照"域名"维度,分类存储(不同网站有不同cookie)
- Cookie 中存储了一个字符串, 这个数据可能是客户端(网页)自行通过 JS 写入的, 也可能来自于服务器(服务器在 HTTP 响应的 header 中通过 Set-Cookie 字段给浏览器返回数据). 且是自定义的,用户不知道实现者如何设置的
一个网站的cookie中会有很多的键值对,但往往会有一个很重要的键值对,往往可以通过这个字段实现 “身份标识” 的功能(这是cookie一个典型的使用场景).
登录一次后,cookie就记住了,你就不需要重复登陆

每个不同的域名下都可以有不同的 Cookie, 不同网站之间的 Cookie 并不冲突.

登录操作

POST https://gitee.com/login HTTP/1.1
Host: gitee.com
Connection: keep-alive
Content-Length: 394
Cache-Control: max-age=0
sec-ch-ua: " Not;A Brand";v="99", "Google Chrome";v="91", "Chromium";v="91"
sec-ch-ua-mobile: ?0
Upgrade-Insecure-Requests: 1
Origin: https://gitee.com
Content-Type: application/x-www-form-urlencoded
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, 
like Gecko) Chrome/91.0.4472.101 Safari/537.36
Accept: 
text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,imag
e/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
Sec-Fetch-Site: same-origin
Sec-Fetch-Mode: navigate
Sec-Fetch-User: ?1
Sec-Fetch-Dest: document
Referer: https://gitee.com/login
Accept-Encoding: gzip, deflate, br
Accept-Language: zh-CN,zh;q=0.9,en;q=0.8
encrypt_key=password&utf8=%E2%9C%93&authenticity_token=36ZqO9tglSN6EB6pF6f2Gt%2B
dalgkbpTDUsJC5OER7w8%3D&redirect_to_url=%2FHGtz2222&user%5Blogin%5D=HGtz2222&enc
rypt_data%5Buser%5Bpassword%5D%5D=Hy2gjJ60312Ss12jSe21GMLPEb766tAhCygL281FLRMpiz
xJVaWGOPlQF7lZhelab1HS2vBiwfBo5C7BnR5ospoBiK1hR6jNXv1lesaYifv9dP1iRC6ozLLMszo%2F
aRh5j5DeYRyKcE0QJjXRGEDg4emXEK1LHVY4M1uqzFS0W58%3D&user%5Bremember_me%5D=0

登陆响应

HTTP/1.1 302 Found
Date: Thu, 10 Jun 2021 04:15:58 GMT
Content-Type: text/html; charset=utf-8
Connection: keep-alive
Keep-Alive: timeout=60
Server: nginx
X-XSS-Protection: 1; mode=block
X-Content-Type-Options: nosniff
X-UA-Compatible: chrome=1
Expires: Sun, 1 Jan 2000 01:00:00 GMT
Pragma: must-revalidate, no-cache, private
Location: https://gitee.com/HGtz2222
Cache-Control: no-cache
Set-Cookie: oschina_new_user=false; path=/; expires=Mon, 10 Jun 2041 04:16:00 
-0000
Set-Cookie: gitee_user=true; path=/
Set-Cookie: gitee-session-n=M1Rhbk1QUUxQdWk1VEZVQ1BvZXYybG13ZUJFNGR1V0pSYTZyTllEa21pVHlBUE5QU2Qwdk44NXdEam
11T3FZYXFidGNYaFJxcTVDRE1xU05GUXN0ek1Uc08reXRTay9ueTV3OGl5bTdzVGJjU1lUbTJ4bTUvN1
l3RFl4N2hNQmI1SEZpdmVJWStETlJrdWtyU0lDckhvSGJHc3NEZDFWdHc5cjdHaGVtNThNcEVOeFZlaH
c0WVY5NGUzWjc2cjdOcCtSdVJ0VndzdVNxb3dHK1hPSDBDSFB6WlZDc3prUVZ2RVJyTnpTb1c4aFg1Mm
UxM1YvQTFkb1EwaU4zT3hJcmRrS3dxVFZJNXoxaVJwa1liMlplbWR5QXQxY0lvUDNic1hxN2o0WDg1Wk
E9LS10N0VIYXg4Vm5xdllHVzdxa0VlUEp3PT0%3D-
-2f6a24f8d33929fe88ed19d4dea495fbb40ebed6; domain=.gitee.com; path=/; HttpOnly
X-Request-Id: 77f12d095edc98fab27d040a861f63b1
X-Runtime: 0.166621
Content-Length: 92
<html><body>You are being <a href="https://gitee.com/HGtz2222">redirected</a>.
</body></html>

可以看到, 响应中包含了 3 个 Set-Cookie 属性.

其中我们重点关注第三个. 里面包含了一个 gitee-session-n 这样的属性, 属性值是一串很长的加密之后的信息. 这个信息就是用户当前登陆的身份标识(sessionid). 也称为 “令牌(token)”

理解登录和身份识别的过程

首次访问网站,出则不考虑,登录成功之后,网站就会给你一个令牌(身份标识,我们也叫seeionid)
身份标识就通过服务器返回给浏览器的响应,保存在浏览器的Cookie中(键值对)
于此同时,网站服务器也会创建出一个Session(电子档案),Session中就会记录我的一些关键信息
每个用户都有自己的Session,并且每个用户的Sessionid都不同,服务器就会使用类似于hash表这样的方式,以sessionid为key,以session为value,把数据组织起来
后续访问网站的其他页面,都会在请求的cookie字段上,都会带上sessionid,服务器根据sessionid就可以知道你当前用户的身份信息了

这个过程和去医院看病很相似

. 到了医院先挂号. 挂号时候需要提供身份证, 同时得到了一张 “就诊卡”, 这个就诊卡就相当于患者的 “令牌”.
后续去各个科室进行检查, 诊断, 开药等操作, 都不必再出示身份证了, 只要凭就诊卡即可识别出当前患者的身份.
看完病了之后, 不想要就诊卡了, 就可以注销这个卡. 此时患者的身份和就诊卡的关联就销毁了. (类似于网站的注销操作)
又来看病, 可以办一张新的就诊卡, 此时就得到了一个新的 “令牌”

cookie总结

cookie从哪里来? cookie是从服务器返回给浏览器的
cookie保存在哪里? 保存在浏览器所在的硬盘空间,每个域名有一组cookie(为了安全浏览器不能访问你的除浏览器的其他硬盘空间)
cookie里的内容是啥? cookie里面的内容都是键值对的数据**(键值对之间用 ; 分割, 键和值之间用 = 分割)**,这些键值对是不同程序员自定义的,其中往往有一个键值对是用户的身份标识(不同网站的身份标识的key和value不一定一样的,应为是程序员自定义的)
cookie的能容到哪里去?,后续访问这个网站的各种页面,就会在请求中带上cookie,服务器就可以进一步的知道客户端的详细情况(通过sessionid和session)
**cookie安全: **你的cookie被别人获取,别人可以冒充你的身份,但是不知道你的账号密码,但是网站一般会缩短cookie的有效时间,减少有人利用cookie的情况,或者设置两个密码或者动态密码

认识请求 “正文” (body)

正文中的内容格式和 header 中的 Content-Type 密切相关. 上面也罗列了三种常见的情况. 下面可以通过抓包来观察这几种情况

application/x-www-form-urlencoded
multipart/form-data
application/json

4.4 HTTP 响应详解

认识 “状态码” (status code)

概念

状态码表示访问一个页面的结果也就是说状态码是对这次请求的定性. (是访问成功, 还是失败, 还是其他的一些情况…)
往往用数字标识访问结果,应为数字可以表示不同的失败,成功只有一种而失败有很多种
c语言中字符串函数 strerror 功能就是把 errno (error number错误码的意思) 翻译成一个字符串,java中无errno,被内中断(异常)代替了,java的异常时正常的"异常",就不需要errno,但是c++的异常是瘸腿的异常,thread,final等都没有,所以c++还经常使用errno,go语言也广泛使用errno(go里面的异常比c++还瘸腿,应为go和c亲兄弟)
HTTP状态码有很多
以下为常见的状态码.

200 OK

这是一个最常见的状态码, 表示访问成功
抓包抓到的大部分结果都是 200 例如访问搜狗主页
1.1是http的版本号, 200是状态码 ok是状态码的描述

HTTP/1.1 200 OK
Server: nginx
Date: Thu, 10 Jun 2021 06:07:27 GMT
Content-Type: text/html; charset=utf-8
Connection: keep-alive
Vary: Accept-Encoding
Set-Cookie: black_passportid=; path=/; expires=Thu, 01 Jan 1970 00:00:00 
GMT; domain=.sogou.com
Pragma: No-cache
Cache-Control: max-age=0
Expires: Thu, 10 Jun 2021 06:07:27 GMT
UUID: 80022370-065c-49b0-a970-31bc467ff244
Content-Length: 14805
<!DOCTYPE html><html lang="cn"><head><meta name="viewport" 
content="width=device-width,minimum-scale=1,maximum-scale=1,userscalable=no"><script>window._speedMark = new Date(); window.lead_ip = 
'1.80.175.234';
......

404 Not Found

没有找到资源.
浏览器输入一个 URL, 目的就是为了访问对方服务器上的一个资源. 如果这个 URL 标识的资源不存在, 那么就会出现 404
例如, 在浏览器中输入www.sogou.com/index.html, 此时就在尝试访问 sogou 上的 /index.html 这个资源
如果输入正确, 则可以正确访问到. 但是如果输入错误, 比如 www.sogou.com/index2.html, 就会看到 404 这样的响应.

HTTP/1.1 404 Not Found
Server: nginx
Date: Thu, 10 Jun 2021 05:19:04 GMT
Content-Type: text/html
Connection: keep-alive
Vary: Accept-Encoding
Content-Length: 564

<html>
<head><title>404 Not Found</title></head>
<body bgcolor="white">
<center><h1>404 Not Found</h1></center>
<hr><center>nginx</center>
</body>
</html>

403 Forbidden

表示访问被拒绝. 有的页面通常需要用户具有一定的权限才能访问(登陆后才能访问). 如果用户没有登陆直接访问, 就容易见到 403.

HTTP/1.1 403 Forbidden
Date: Thu, 10 Jun 2021 06:05:36 GMT
Content-Type: text/html; charset=utf-8
Connection: keep-alive
Keep-Alive: timeout=60
Server: nginx
Vary: Accept-Encoding
X-XSS-Protection: 1; mode=block
X-Content-Type-Options: nosniff
X-UA-Compatible: chrome=1
Expires: Sun, 1 Jan 2000 01:00:00 GMT
Pragma: must-revalidate, no-cache, private
Cache-Control: no-cache
Set-Cookie: oschina_new_user=false; path=/; expires=Mon, 10 Jun 2041 
06:05:40 -0000
Set-Cookie: gitee-sessionn=ejEvQnYza2RlaXh0KzRaN3QrNWI2TzdLOE03bU5UNjRKdGlqWUFkMlJ2YktWYTRtcEtIVExOZE
dJSFJFSkdiWmcxNmhjSTdneUZFaHFtalNKQUJWcDlUNDZYd2lBaElXNy9FaWRHQkl4d2RsS1RIWn
RCNFphQm5JUjZOdjdsSDh5TlNvZ3hZdTBXNXUrU2c2azN2UVNFOWwyQnJvQzZ6MEluaEFFYnRoV0
luOFlNWEEzWlR0K1g4WDlQRjNkSlNjZ1pUMGc0YkhreVNJMUV4YkVUUk0weXFqbGhQYzN5djA2bF
Jyc3o4MHRVWkkxcHdQVG5abmJ2NmlqV1dEYjlWaUpNNno3UGFpZ3lsb1RqeXAranFHRlE9PS0tdU
5JMGZ3UUpwODRYdjF1MXdyYmFKUT09--52babe9c2dcb63fa02bc32d25bc0e854f4065f5f; 
domain=.gitee.com; path=/; HttpOnly
X-Request-Id: 82a740fb98838c305c4cc597ab6f48c0
X-Runtime: 0.020299
Content-Length: 7092
<!DOCTYPE html>

<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<title>您的访问受限 (403)</title>
......

405 Method Not Allowed

前面我们已经学习了 HTTP 中所支持的方法, 有 GET, POST, PUT, DELETE 等.
但是对方的服务器不一定都支持所有的方法(或者不允许用户使用一些其他的方法)

500 Internal Server Error

服务器出现内部错误. 一般是服务器的代码执行过程中遇到了一些特殊情况(服务器异常崩溃)会产生这个状态码
咱们平时常用的网站很少会出现 500 (但是偶尔也能看到)

504 Gateway Timeout

当服务器负载比较大的时候, 服务器处理单条请求的时候消耗的时间就会很长, 就可能会导致出现超时的情况

这种情况在双十一等 “秒杀” 场景中容易出现, 平时不太容易见到.

但是学校网站经常见到

502 Bad Gateway

服务器挂了

302 Move temporarily

概念

临时重定向.
跳转到别的页面上

理解 “重定向”

就相当于手机号码中的 “呼叫转移” 功能.
比如我本来的手机号是 186-1234-5678, 后来换了个新号码 135-1234-5678, 那么不需要让我的朋友知道新号码,
只要我去办理一个呼叫转移业务, 其他人拨打 186-1234-5678 , 就会自动转移到 135-1234-5678 上.
HTTP服务器的重定向也是这个原理,比如使用浏览器访问www.aaa.com 这个url,此时请求发给对应服务器,结果服务器返回一个302并且告诉你,你要去访问www.bbb.com,于是浏览器接收到这个响应后,就会自动跳转到www.bbb.com

出现情况

在登陆页面中经常会见到 302. 用于实现登陆成功后自动跳转到主页.
响应报文的 header 部分会包含一个 Location 字段, 表示要跳转到哪个页面.
例如: 码云的登陆页面 https://gitee.com/login

HTTP/1.1 302 Found
Date: Thu, 10 Jun 2021 06:49:26 GMT
Content-Type: text/html; charset=utf-8
Connection: keep-alive
Keep-Alive: timeout=60
Server: nginx
X-XSS-Protection: 1; mode=block
X-Content-Type-Options: nosniff
X-UA-Compatible: chrome=1
Expires: Sun, 1 Jan 2000 01:00:00 GMT
Pragma: must-revalidate, no-cache, private
Location: https://gitee.com/HGtz2222
Cache-Control: no-cache
Set-Cookie: oschina_new_user=false; path=/; expires=Mon, 10 Jun 2041 
06:49:24 -0000
Set-Cookie: gitee_user=true; path=/
Set-Cookie: gitee-sessionn=UG5CdVZQUkVUamxsWis3b0JoL2dyTDRLVTk1WXVCK2VwaGd0OGFKdjBjdjB4K0RiWTh2ZmhrZG
M1cU0vOFN2VGdNcVY5dU5rSzZHeVFBcVZ3OTBaSmZmZzRYQUdsa2tHMnFIeU9SQlN4Z2pleDNMY3
ExZUF6QWpHTHlVeTZOWFVHSVBxbTVuZGJpandHekdaRVBTUVd0ejZUNHNvTllSODBiNHd6NWNCRU
Z0UzZCZW1mRTBZUUdmOE5JTWVKdnJMMzdQcHFBMk5nUmNjMWpmc3daTElYU2hhbkEwQm41NHNlZ2
RwM3QxSjZMTndSNjcyNDd6YUVoS0ZmUWpLTDQ2KzlzZVowZTFLaUNPTmVDajVOb2k0MWFRcGkzWV
Q2QUxuWXJLeTRqL2JHaUE9LS0xYlVDOWVkc0JiM2xucVk0am1LRHFnPT0%3D-
-58854ce81d6c67bb7b9a0fdd6fe18a8ebdb3d753; domain=.gitee.com; path=/; 
HttpOnly
X-Request-Id: d45ade01dbeffc99a3688d3411b3381f
X-Runtime: 0.133587
Content-Length: 92
<html><body>You are being <a 
href="https://gitee.com/HGtz2222">redirected</a>.</body></html>

可以看到 header 中的 Location: https://gitee.com/HGtz2222 , 接下来浏览器就会自动发送 GET 请求, 获取 https://gitee.com/HGtz2222

301 Moved Permanently

永久重定向. 当浏览器收到这种响应时, 后续的请求都会被自动改成新的地址.
301 也是通过 Location 字段来表示要重定向到的新地址.

状态码总结

200 成功
404 访问资源不存在
403 访问的资源没有权限
502 服务器挂了
504 服务器超时了
302 重定向(浏览器会自动跳转到其他页面)

认识响应 “报头” (header)

概念

响应报头的基本格式和请求报头的格式基本一致.
类似于 Content-Type , Content-Length 等属性的含义也和请求中的含义一致

Content-Type

响应中的 Content-Type 常见取值有以下几种:

text/html : body 数据格式是 HTML
text/css : body 数据格式是 CSS
application/javascript : body 数据格式是 JavaScript
application/json : body 数据格式是 JSON

关于 Content-Type 的详细情况: https://developer.mozilla.org/en-US/docs/Web/HTTP/Basics_of_HT TP/MIME_types

认识响应 “正文” (body)

概念

正文的具体格式取决于 Content-Type. 观察上面几个抓包结果中的响应部分.

text/html

Server: nginx/1.17.3
Date: Thu, 10 Jun 2021 07:25:09 GMT
Content-Type: text/html; charset=utf-8
Last-Modified: Thu, 13 May 2021 09:01:26 GMT
Connection: keep-alive
ETag: W/"609ceae6-3206"
Content-Length: 12806
<!DOCTYPE html><html><head><meta charset=utf-8><meta http-equiv=X-UA-Compatible 
content="IE=edge,chrome=1"><meta name=renderer content=webkit><meta name=viewport 
content="width=device-width,initial-scale=1,minimum-scale=1,maximum-scale=1,userscalable=no"><link rel=icon href=/favicon.ico><title id=bodyTitle>比特教务管理系统
</title><link href=https://cdn.bootcss.com/jquerydatetimepicker/2.5.20/jquery.datetimepicker.css rel=stylesheet><script 
src=https://cdn.bootcss.com/highlight.js/9.1.0/highlight.min.js></script><script 
src=https://cdn.bootcss.com/highlightjs-line-numbers.js/2.5.0/highlightjs-linenumbers.min.js></script><style>html,
   body,
   #app {
     height: 100%;
     margin: 0px;
     padding: 0px;
}
   .chromeframe {
     margin: 0.2em 0;
     background: #ccc;
     color: #000;
     padding: 0.2em 0;
   }
   #loader-wrapper {
     position: fixed;
     top: 0;
     left: 0;
     width: 100%;
     height: 100%;
     z-index: 999999;
   }
......

text/css

HTTP/1.1 200 OK
Server: nginx/1.17.3
Date: Thu, 10 Jun 2021 07:25:09 GMT
Content-Type: text/css
Last-Modified: Thu, 13 May 2021 09:01:26 GMT
Connection: keep-alive
ETag: W/"609ceae6-3cfbe"
Content-Length: 249790
@font-face{font-family:element-icons;src:url(../../static/fonts/elementicons.535877f5.woff) format("woff"),url(../../static/fonts/elementicons.732389de.ttf) format("truetype");font-weight:400;font-style:normal}
[class*=" el-icon-"], 
......

application/javascript

HTTP/1.1 200 OK
Server: nginx/1.17.3
Date: Thu, 10 Jun 2021 07:25:09 GMT
Content-Type: application/javascript; charset=utf-8
Last-Modified: Thu, 13 May 2021 09:01:26 GMT
Connection: keep-alive
ETag: W/"609ceae6-427d4"
Content-Length: 272340
(window["webpackJsonp"]=window["webpackJsonp"]||[]).push([["app"],
{0:function(t,e,n){t.exports=n("56d7")},"00b3":function(t,e,n){},"
......

application/json

HTTP/1.1 200
Server: nginx/1.17.3
Date: Thu, 10 Jun 2021 07:25:10 GMT
Content-Type: application/json;charset=UTF-8
Connection: keep-alive
X-Content-Type-Options: nosniff
X-XSS-Protection: 1; mode=block
Cache-Control: no-cache, no-store, max-age=0, must-revalidate
Pragma: no-cache
Expires: 0
vary: accept-encoding
Content-Length: 12268
{"msg":"操作成功","code":200,"permissions":[] }

4.5 自主构造HTTP请求

构造HTTP请求的多种方法

通过 form 表单构造 HTTP 请求
通过js的ajax
java代码(其他各种语言的代码都行)
借助第三方的工具

通过 form 表单构造 HTTP 请求

概念

form (表单) 是 HTML 中的一个常用标签. 可以用于给服务器发送 GET 或者 POST 请求.
HTML是描述一个"形态",一个网页上都有啥,大部分像java和c++的语言都是在描述一个逻辑,先干啥再干啥

form 发送 GET 请求

构造

form 的重要参数:

action: 构造的 HTTP 请求的 URL 是什么.
method: 构造的 HTTP 请求的方法是 GET 还是 POST (form 只支持 GET 和 POST).

input 的重要参数:

type: 表示输入框的类型. text 表示文本, password 表示密码, submit 表示提交按钮.
name: 表示构造出的 HTTP 请求的 query string 的 key(键值对的键). query string 的 value (键值对的值)就是输入框的用户输入的内容,如果是GET方法就是放在URL中,如果是POST方法就放在body中
value: input 标签的值. 对于 type 为 submit 类型来说(构造出一个提交按钮), value 就对应了按钮上显示的文本.

<form action="http://abcdef.com/myPath" method="GET">
    <input type="text" name="userId">
    <input type="text" name="classId">
    <input type="submit" value="提交">
</form>

构造的 HTTP 请求

GET http://abcdef.com/myPath?userId=100&classId=200 HTTP/1.1
Host: abcdef.com
Proxy-Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, 
like Gecko) Chrome/91.0.4472.114 Safari/537.36
Accept: 
text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,imag
e/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.9,en;q=0.8

注意: 由于我们的服务器的地址是随便写的, 因此无法获取到正确的 HTTP 响应.

体会 form 代码和 HTTP 请求之间的对应关系

form 的 action 属性对应 HTTP 请求的 URL
form 的 method 属性对应 HTTP 请求的方法
input 的 name 属性对应 query string 的 key
input 的内容对应 query string 的 value

form 发送 POST 请求

构造

修改上面的代码, 把 form 的 method 修改为 POST

<form action="http://abcdef.com/myPath" method="GET">
    <input type="text" name="userId">
    <input type="text" name="classId">
    <input type="submit" value="提交">
</form>

构造的 HTTP 请求

POST http://abcdef.com/myPath HTTP/1.1
Host: abcdef.com
Proxy-Connection: keep-alive
Content-Length: 22
Cache-Control: max-age=0
Upgrade-Insecure-Requests: 1
Origin: null
Content-Type: application/x-www-form-urlencoded
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, 
like Gecko) Chrome/91.0.4472.114 Safari/537.36
Accept: 
text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,imag
e/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.9,en;q=0.8
userId=100&classId=200

get和post主要的区别:

method 从 GET 变成了 POST
数据从 query string 移动到了 body 中.
使用 form 还可以提交文件. 后面再介绍.

小总结

from表单只能支持get和post,不能支持put/delete/options等其他方法
构造http请求就是前后端交互的一部分

通过 ajax 构造 HTTP 请求

概念

我们如今跟常用ajax的方法构造http
从前端角度, 除了浏览器地址栏能构造 GET 请求, form 表单能构造 GET 和 POST 之外, 还可以通过 ajax 的方式来构造 HTTP 请求. 并且功能更强大

ajax 全称 Asynchronous Javascript And XML, 是 2005 年提出的一种 JavaScript 给服务器发送 HTTP 请求的方式. 特点是可以不需要刷新页面/页面跳转就能进行数据传输.

同步和异步:(Asynchronous为异步,在多线程谈到的**“同步"指的是"互斥”,在io交互的场景还可能涉及到"同步等待(一直等,等待的职责)“**和"异步等待(别人中断喊你cpu在知道,等待的职责在被发起者身上)”
ajax 就是一种异步的通信方式,通过代码发出http请求,请求发出去后js代码就继续往下执行代码了,当服务器的响应回来之后,就会自动的通知我们的代码中,进一步就能处理了
在 JavaScript 中可以通过 ajax 的方式构造 HTTP 请求,ajax是js提供的一组api,但是js原生的ajax api非常不好用(用起来不方便),js世界中,有一个知名的第三方库叫jQuery(现在没以前用的那么多了),需要把jQuery引入到代码中(js中只需要找到url就可以引入了,非常方便)
注意: 为了验证 ajax 的功能, 需要提前准备好一份配套的服务器程序.

这个代码已经部署在 http://42.192.83.143:8080/AjaxMockServer/info . 同学们也可以通过这个链接来访问服务器.

发送 GET 请求

创建 test.html, 在 <script> 标签中编写以下代码.script标签就是拿来放js代码的,src属性就可以从网络上加载一个js代码过来
在网上搜索 jquery cdn,cdn就可以理解成大佬搞的一组服务器,用来放一下常用的资源,这里放一个[jQuery CDN](https://releases.jquery.com/)
$ 在js是一个合法的变量,就像abc,count这样的,$在jQuery中已经定义好了,$这个对象就有很多方法,$.ajax就是jQuery发起一个ajax请求的方法
ajax传参数用大括号()
在js中{ }表示js的对象(键值对),{ }里可以有多个键值对,键值对之间使用 , 分割.键和值之间使用 : 分割,键固定都是string类型,可以写’ '也可以写" ",也可以不写. 值可以是数字可以是字符串,可以是数组还可以是对象
下面样例的key都是特定的,代表着某些意义

<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
</head>
<body>
    <script src="https://code.jquery.com/jquery-3.7.1.min.js"></script>
    <script>
        // 正式的 js 代码, 就要调用上面 jQuery 中的方法了. 
        $.ajax({
            type: 'get', //这个type可支持多种方法
            url:'https://www.sogou.com', //路径
            success: function(body) { //这里的键是success,值是一个函数,success表示访问成功后服务器返回响应,浏览器接收到										响应后会自动调用success后的东西,这里是一个函数,调用这个函数的时候会把响应的body传给这个函数
                console.log('ok');
            }
        });
    </script>
</body>
</html>

发送 POST 请求

我们这里的请求,只是为了抓包使用的,看不到响应,应为搜狗的服务器不会正确处理这样的请求
要想正确处理,需要你自己的服务器自定义出处理方法,这就要学习servelt/spring boot的方式了

<html lang="en">

<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
</head>

<body>
    <script src="https://code.jquery.com/jquery-3.7.1.min.js"></script>
    <script>
        // 正式的 js 代码, 就要调用上面 jQuery 中的方法了. 
        $.ajax({
            type: 'post',
            url: 'https://www.sogou.com',
            contentType: 'application/x-www-form-urlencoded',
            data: 'aaa=111&bbb=222',
            success: function (body) { //这里的键是success,值是一个函数
                console.log('ok');
            }
        });
    </script>
</body>

</html>

通过 Java socket 构造 HTTP 请求

概念

所谓的 “发送 HTTP 请求”, 本质上就是按照 HTTP 的格式往 TCP Socket 中写入一个字符串
所谓的 “接受 HTTP 响应”, 本质上就是从 TCP Socket 中读取一个字符串, 再按照 HTTP 的格式来解析.
我们基于 Socket 的知识, 完全可以构造出一个简单的 HTTP 客户端程序, 用来发送各种类型的 HTTP 请求.
使用java构造,本质就是一个tcp客户端,创建一个Socket对象往里面按照http协议的格式写数据即可

代码

import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.Socket;

public class HttpClient {
    private Socket socket;
    private String ip;
    private int port;

    public HttpClient(String ip, int port) throws IOException {
        this.ip = ip;
        this.port = port;
        socket = new Socket(ip, port);
    }

    public String get(String url) throws IOException {
        StringBuilder request = new StringBuilder();
        // 构造首行
        request.append("GET " + url + " HTTP/1.1\n");
        // 构造 header
        request.append("Host: " + ip + ":" + port + "\n");
        // 构造 空行
        request.append("\n");
        // 发送数据
        OutputStream outputStream = socket.getOutputStream();
        outputStream.write(request.toString().getBytes());
        // 读取响应数据
        InputStream inputStream = socket.getInputStream();
        byte[] buffer = new byte[1024 * 1024];
        int n = inputStream.read(buffer);
        return new String(buffer, 0, n, "utf-8");
    }

    public String post(String url, String body) throws IOException {
        StringBuilder request = new StringBuilder();
        // 构造首行
        request.append("POST " + url + " HTTP/1.1\n");
        // 构造 header
        request.append("Host: " + ip + ":" + port + "\n");
        request.append("Content-Length: " + body.getBytes().length + "\n");
        request.append("Content-Type: text/plain\n");
        // 构造 空行
        request.append("\n");
        // 构造 body
        request.append(body);
        // 发送数据
        OutputStream outputStream = socket.getOutputStream();
        outputStream.write(request.toString().getBytes());
        // 读取响应数据
        InputStream inputStream = socket.getInputStream();
        byte[] buffer = new byte[1024 * 1024];
        int n = inputStream.read(buffer);
        return new String(buffer, 0, n, "utf-8");
    }

    public static void main(String[] args) throws IOException {
        HttpClient httpClient = new HttpClient("42.192.83.143", 8080);
        String getResp = httpClient.get("/AjaxMockServer/info");
        System.out.println(getResp);
        String postResp = httpClient.post("/AjaxMockServer/info", "this is body");
        System.out.println(postResp);
    }
}

补充

使用 Java 构造的 HTTP 客户端不再有 “跨域” 限制了, 此时也可以用来获取其他服务器的数据了

跨域只是浏览器的行为, 对于 ajax 有效. 对于其他语言来说一般都和跨域无关.

HttpClient httpClient = new HttpClient("www.sogou.com", 80);
String resp = httpClient.get("/index.html");
System.out.println(resp);
// 此时可以获取到 搜狗主页 的 html

其他方法构造HTTP

除了上面几种写代码的方式,还可以用第三方的软件,比如postman

postman可以图像化构造请求,还能生成代码

爬虫于抓包

通过抓包也可以实现爬虫
爬虫的本质就是http客户端(对标浏览器)
有一些网站,就可以通过构造http请求的方式来实现一些操作,比如一个典型操作,抢票/抢东西,就可以通过程序,构造一个http请求,时间到就自动发起请求,就比手动下单来的快很多,具体构造的请求是咋样的就需要通过抓包来分析,所以写爬虫少不了用postman和fiddler

5.0 HTTPS

HTTPS 是什么

HTTPS 也是一个应用层协议. 是在 HTTP 协议的基础上引入了一个加密层.
HTTP 协议内容都是按照文本的方式明文传输的. 这就导致在传输过程中出现一些被篡改的情况(比如你点的是网易云音乐下载,下载时被替换成qq浏览器).
由于我们通过网络传输的任何的数据包都会经过运营商的网络设备(路由器, 交换机等), 那么运营商的网络设备就可以解析出你传输的数据内容, 并进行篡改.
点击 “下载按钮”, 其实就是在给服务器发送了一个 HTTP 请求, 获取到的 HTTP 响应其实就包含了该 APP 的下载链接. 运营商劫持之后, 就发现这个请求是要下载网易云音乐, 那么就自动的把交给用户的响应给篡改成 “QQ浏览器” 的下载地址了.
不止运营商可以劫持, 其他的黑客也可以用类似的手段进行劫持, 来窃取用户隐私信息, 或者篡改内容. 试想一下, 如果黑客在用户登陆支付宝的时候获取到用户账户余额, 甚至获取到用户的支付密码
在互联网上, 明文传输是比较危险的事情!!!
HTTPS 就是在 HTTP 的基础上进行了加密, 进一步的来保证用户的信息安全

“加密” 与 “解密”

加密就是把明文 (要传输的信息)进行一系列变换, 生成密文 .
解密就是把密文再进行一系列变换, 还原成明文 .
在这个加密和解密的过程中, 往往需要一个或者多个中间的数据, 辅助进行这个过程, 这样的数据称为密钥
加密: 明文+密钥=密文
解密: 密文+密钥=明文
有的场景,加密和解密,使用的是相同的密钥,“堆成加密”
话有的场景,加密和解密使用多个是不同的密钥,“非对称加密”(生成一对密钥,分别成为公钥和私钥,就可以使用公钥来加密,私钥来解密,反过来也可以)

HTTPS 的工作过程

既然要保证数据安全, 就需要进行 “加密”
网络传输中不再直接传输明文了, 而是加密之后的 “密文”.
加密的方式有很多, 但是整体可以分成两大类: 对称加密和非对称加密

引入对称加密

对称加密其实就是通过同一个 “密钥” , 把明文加密成密文, 并且也能把密文解密成明文.

一个简单的对称加密, 按位异或

假设明文 a = 1234, 密钥 key = 8888

则加密 a ^ key 得到的密文 b 为 9834.

然后针对密文 9834 再次进行运算 b ^ key, 得到的就是原来的明文 1234.

(对于字符串的对称加密也是同理, 每一个字符都可以表示成一个数字)

当然, 按位异或只是最简单的对称加密. HTTPS 中并不是使用按位异或.

引入对称加密之后, 即使数据被截获, 由于黑客不知道密钥是啥, 因此就无法进行解密, 也就不知道请求的真实内容是啥了.
但事情没这么简单. 服务器同一时刻其实是给很多客户端提供服务的. 这么多客户端, 每个人用的秘钥都必须是不同的(如果是相同那密钥就太容易扩散了, 黑客就也能拿到了). 因此服务器就需要维护每个客户端和每个密钥之间的关联关系, 这也是个很麻烦的事情~,总结来说: 每个客户端都有自己的密钥(不同客户端的密钥也要不同),如果客户端生成了密钥就需要把密钥传给服务器
比较理想的做法, 就是能在客户端和服务器建立连接的时候, 双方协商确定这次的密钥是啥~
但是如果直接把密钥明文传输, 那么黑客也就能获得密钥了~~ 此时后续的加密操作就形同虚设了
因此密钥的传输也必须加密传输!
但是要想对密钥进行对称加密, 就仍然需要先协商确定一个 “密钥的密钥”. 这就成了 “先有鸡还是先有蛋” 的问题了. 此时密钥的传输再用对称加密就行不通了.
就需要引入非对称加密.

引入非对称加密

公钥和密钥

非对称加密要用到两个密钥, 一个叫做 “公钥”, 一个叫做 “私钥”.

公钥和私钥是配对的. 最大的缺点就是运算速度非常慢，比对称加密要慢很多.

通过公钥对明文加密, 变成密文
通过私钥对密文解密, 变成明文

也可以反着用

通过私钥对明文加密, 变成密文
通过公钥对密文解密, 变成明文

非对称加密的数学原理比较复杂, 涉及到一些数论相关的知识. 这里举一个简单的生活上的例子

A 要给 B 一些重要的文件, 但是 B 可能不在. 于是 A 和 B 提前做出约定:

B 说: 我桌子上有个盒子, 然后我给你一把锁, 你把文件放盒子里用锁锁上, 然后我回头拿着钥匙来开锁取文件

在这个场景中, 这把锁就相当于公钥, 钥匙就是私钥. 公钥给谁都行(不怕泄露), 但是私钥只有 B 自己持有. 持有私钥的人才能解密.

服务器生成一对公钥和私钥私钥服务器自己留着,公钥发给客户端
客户端在本地生成对称密钥, 通过公钥加密, 发送给服务器.
由于中间的网络设备没有私钥, 即使截获了数据, 也无法还原出内部的原文, 也就无法获取到对称密钥
服务器通过私钥解密, 还原出客户端发送的对称密钥. 并且使用这个对称密钥加密给客户端返回的响应数据
后续客户端和服务器的通信都只用对称加密即可. 由于该密钥只有客户端和服务器两个主机知道, 其他主机/设备不知道密钥即使截获数据也没有意义.
此处的非对称加密只是用来针对对称密钥进行加密的,而不会加密http的header和body(数据),后续数据的加密还是使用对称加密,总结下来就是:我传的数据还是对称加密,不过我解锁这个对称加密的密钥用非对称加密的公钥加密传输给了服务器,服务器利用私钥可以知道对称加密的密钥,再利用这个密钥加密返回数据,而客户端是从始至终都是知道解锁对称数据的密钥的(应为对称加密是我客户端发起的),为什么不全用非对称加密?原因如下:

由于对称加密的效率比非对称加密高很多, 因此只是在开始阶段协商密钥的时候使用非对称加密, 后续的传输仍然使用对称加密.

存在的问题

客户端如何获取到公钥?
客户端如何确定这个公钥不是黑客伪造的?
黑客可以使用中间人攻击的方式仍能获取对称密钥

引入证书(解决中间人攻击)

证书的机制

为了解决中间人攻击,需要让客户端能够确认当前收到的公钥,确实是服务器反回的,而不是黑客伪造的
这就引入了证书机制,需要一个第三方的认证机构,通过第三方机构作保,来确认当前的公钥是有效的
服务器想要开服得先去第三方机构申请一个证书

证书概念

在客户端和服务器刚一建立连接的时候, 服务器给客户端返回一个证书.

这个证书包含了刚才的公钥, 也包含了网站的身份信息.

这个证书就好比人的身份证, 作为这个网站的身份标识. 搭建一个 HTTPS 网站要在CA机构先申请一个证书. (类似于去公安局办个身份证)

查看浏览器的受信任证书发布机构

Chrome 浏览器, 点击右上角的三个点

选择 “设置”, 搜索 “证书管理” , 即可看到以下界面.

证书包含了啥

这个证书可以理解成是一个结构化的字符串, 里面包含了以下信息:

证书发布机构
证书有效期
公钥
证书所有者
数字签名(指纹),也是一串加密的数据,对上诉信息的一层加密,公证机构在生成证书的时候会先对证书的其他属性生成一个校验和,然后还会使用公证机构自己的私钥争对上诉校验和进行加密,别人就无法重新生成这个校验和
…

理解数据摘要 / 签名/ 数字签名

以后我们参加工作后, 经常会涉及到 “报销” 的场景. 你拿着发票想报销, 需要领导批准. 但是领导又不能和你一起去找财务. 那咋办?

很简单, 领导给你签个字就行了. 财务见到领导的签字, “见字如见人”

因为不同的人, “签名” 的差别会很大. 使用签名就可以一定程度的区分某个特定的人. 类似的, 针对一段数据(比如一个字符串), 也可以通过一些特定的算法, 对这个字符串生成一个 “签名”. 并保证

不同的数据, 生成的 “签名” 差别很大. 这样使用这样的签名就可以一定程度的区分不同的数据.

常见的生成签名的算法有: MD5 和 SHA 系列

以 MD5 为例, 我们不需要研究具体的计算签名的过程, 只需要了解 MD5 的特点:

定长: 无论多长的字符串, 计算出来的 MD5 值都是固定长度 (16字节版本或者32字节版本)
分散: 源字符串只要改变一点点, 最终得到的 MD5 值都会差别很大.
分散: 源字符串只要改变一点点, 最终得到的 MD5 值都会差别很大.

正因为 MD5 有这样的特性, 我们可以认为如果两个字符串的 MD5 值相同, 则认为这两个字符串相同.

服务器与客户端连接过程

客户端申请连接,服务器返回证书(也是个结构化的字符串,但是经过加密)
客户端争对证书进行校验(过程见下)
客户端手里有证书的公钥(认证机构有私钥,但同时也会生成公钥,会把公钥分给其他设备,且公钥不是通过网络传输的,而windows会有知名公证机构的公钥,这个环节黑客不能用中间人攻击),客户端通过公钥对数字签名解密,得到检验和和明文
客户端按照同样的算法,把原有证书中的其他属性按照同样的算法算一次校验和,再拿这个算出来的校验和与解密后的校验和进行比对,如果一致,说明证书是好的

客户端拿到返回证书进行校验

当客户端获取到这个证书之后, 会对证书进行校验(防止证书是伪造的).

判定证书的有效期是否过期
判定证书的发布机构是否受信任(操作系统中已内置的受信任的证书发布机构).
验证证书是否被篡改: 从系统中拿到该证书发布机构的公钥, 对签名解密, 得到一个 hash 值(称为数据摘要), 设为 hash1. 然后计算整个证书的 hash 值, 设为 hash2. 对比 hash1 和 hash2 是否相等. 如果相等, 则说明证书是没有被篡改过的.

理解判定证书篡改的过程:

这个过程就好比判定这个身份证是不是伪造的身份证

假设我们的证书只是一个简单的字符串 hello, 对这个字符串计算hash值(比如md5), 结果为 BC4B2A76B9719D91

如果 hello 中有任意的字符被篡改了, 比如变成了 hella, 那么计算的 md5 值就会变化很大. BDBD6F9CF51F2FD8

然后我们可以把这个字符串 hello 和哈希值 BC4B2A76B9719D91 从服务器返回给客户端, 此时客户端如何验证 hello 是否是被篡改过?

那么就只要计算 hello 的哈希值, 看看是不是 BC4B2A76B9719D91 即可.

但是还有个问题, 如果黑客把 hello 篡改了, 同时也把哈希值重新计算下, 客户端就分辨不出来了呀.

所以被传输的哈希值不能传输明文, 需要传输密文

这个哈希值在服务器端通过另外一个私钥加密(这个私钥是申请证书的时候, 证书发布机构给服务器的, 不是客户端和服务器传输对称密钥的私钥)

然后客户端通过操作系统里已经存的了的证书发布机构的公钥进行解密, 还原出原始的哈希值, 再进行校验.

黑客应对的方法

hacker可以把自己伪装成认证机构,骗客户端安装自己的公钥
此时就可以光明正大的替换掉证书中的数字签名
fiddler能够抓包,本质就是在你安装fiddler开启https的时候提示你安装一个xxx,这个xxx就是让fidder成为一个认证机构,fiddler就可以对你的浏览器传输的数据进行合法的中间人攻击
对于安卓系统,安卓系统对安全做出了一系列的限制,安卓西永会设定很多权限,app想要使用某个权限,得申请权限,(比如访问你的通讯录,获取你的设备信息,访问你的硬盘…),很多app一上来就申请很多权限,不通过,就不让你用,如果同意就会有很多坏处了 ------ **比如: **把人家发布的app进行逆向破解,插入自己的代码,重新打包,发给用户,一旦用户安装了他的app后,app后就会执行一些后台代码

总结

HTTPS 工作过程中涉及到的密钥有三组

第一组(非对称加密): 用于校验证书是否被篡改. 服务器持有私钥(私钥在注册证书时获得), 客户端持有公钥(操作系统包含了可信任的 CA 认证机构有哪些, 同时持有对应的公钥). 服务器使用这个私钥对证书的签名进行加密. 客户端通过这个公钥解密获取到证书的签名, 从而校验证书内容是否是篡改过.
第二组(非对称加密): 用于协商生成对称加密的密钥. 服务器生成这组私钥-公钥对, 然后通过证书把公钥传递给客户端. 然后客户端用这个公钥给生成的对称加密的密钥加密, 传输给服务器, 服务器通过私钥解密获取到对称加密密钥.
第三组(对称加密): 客户端和服务器后续传输的数据都通过这个对称密钥加密解密.

其实一切的关键都是围绕这个对称加密的密钥. 其他的机制都是辅助这个密钥工作的.

第二组非对称加密的密钥是为了让客户端把这个对称密钥传给服务器.

第一组非对称加密的密钥是为了让客户端拿到第二组非对称加密的公钥

名公证机构的公钥,这个环节黑客不能用中间人攻击),客户端通过公钥对数字签名解密,得到检验和和明文

客户端按照同样的算法,把原有证书中的其他属性按照同样的算法算一次校验和,再拿这个算出来的校验和与解密后的校验和进行比对,如果一致,说明证书是好的