网络原理之http
Http原理
为什么要有应用层协议
通过 TCP/IP , 我们已经知道目前数据能从客户端进程经过路径选择跨网络传送到服务器端进程[ IP+Port ],可
是,仅仅把数据从A点传送到B点就完了吗?这就好比,在淘宝上买了一部手机,卖家[ 客户端 ]把手机通过顺丰[ 传送 +路径选择 ] 送到买家
[ 服务器 ] 手里就完了吗?当然不是,买家还要使用这款产品,还要在使用之后,给卖家打分评 论。所以,我们把数据从A端传送到B端,
TCP/IP 解决的是顺丰的功能,而两端还要对数据进行加工处理或者使用, 所以我们还需要一层协议,不关心通信细节,关心应用细节!
这层协议叫做应用层协议。而应用是有不同的场景的,所以应用层协议是有不同种类的,其中经典协议之一的HTTP 就是其中的佼佼者。那么, Http
是解决什么应用场景呢? 早期用户,上网使用浏览器来进行上网,而用浏览器上网阅读信息,常见的是查看各种网页【其实也是文件数据, 不过是一系列的
html 文档,当然还有其他资源如图片, css , js 等】,而要把网页文件信息通过网络传送到客户
端,或者把用户数据上传到服务器,就需要 Http 协议【当然,http作用不限于此】
Http协议
虽然我们说, 应用层协议是我们程序猿自己定的. 但实际上, 已经有大佬们定义了一些现成的, 又非常好用的应用层协议, 供我们直接参考使用. HTTP(超文本传输协议)就 是其中之一.
认识URL
平时我们俗称的 “网址” 其实就是说的 URL
urlencode和urldecode
像 / ? : 等这样的字符, 已经被url当做特殊意义理解了. 因此这些字符不能随意出现. 比如, 某个参数中需要带有这些特殊字符, 就必须先对特殊字符进行转义. 转义的规则如下: 将需要转码的字符转为16进制,然后从右到左,取4位(不足4位直接处理),每2位做一位,前面加上%,编码成%XY 格式
例如:
“+” 被转义成了 “%2B”
urldecode就是urlencode的逆过程
HTTP协议格式
HTTP请求
首行: [方法] + [url] + [版本]
Header: 请求的属性, 冒号分割的键值对;每组属性之间使用\n分隔;遇到空行表示Header部分结束
Body: 空行后面的内容都是Body. Body允许为空字符串. 如果Body存在, 则在Header中会有一个ContentLength属性来标识Body的长度;
HTTP响应
- 首行: [版本号] + [状态码] + [状态码解释]
- Header: 请求的属性, 冒号分割的键值对;每组属性之间使用\n分隔;遇到空行表示Header部分结束
- Body: 空行后面的内容都是Body. Body允许为空字符串. 如果Body存在,则在Header中会有一个ContentLength属性来标识Body的长度;
如果服务器返回了一个html页面,那么html页面内容就是在body中.
HTTP的方法
其中常用的就是GET方法和POST方法.
HTTP的状态码
常见的状态码, 比如:200(OK),404(NotFound),403(Forbidden), 302(Redirect, 重定向), 504(Bad Gateway)
HTTP常见Header
- Content-Type: 数据类型(text/html等);
- Content-Length: Body的长度 Host: 客户端告知服务器, 所请求的资源是在哪个主机的哪个端口上;
- User-Agent: 声明用户的操作系统和浏览器版本信息;
- referer: 当前页面是从哪个页面跳转过来的;
- location: 搭配3xx状态码使用, 告诉客户端接下来要去哪里访问;
- Cookie: 用于在客户端存储少量信息. 通常用于实现会话(session)的功能;
session和cookie
用户信息
Http 是一个无状态协议, 就是说这一次请求和上一次请求是没有任何关系的,互不认识的,没有关联的。这种无状态 的的好处是快速。坏处是需要进行用户状态保持的场景时[比如,登陆状态下进行页面跳转,或者用户信息多页面共 享等场景],必须使用一些方式或者手段比如: session 和 cookie
cookie
如上所述, Http 是一个无状态的协议,但是访问有些资源的时候往往需要经过认证的账户才能访问,而且要一直保 持在线状态,所以,cookie是一种在浏览器端解决的方案,将登陆认证之后的用户信息保存在本地浏览器中,后面每 次发起http请求,都自动携带上该信息,就能达到认证用户,保持用户在线的作用,具体如下图:
session
将用户敏感信息放到本地浏览器中,能解决一定的问题,但是又引进了新的安全问题,一旦cookie丢失,用户信息 泄露,也很容易造成跨站攻击,所以有了另一种解决方法,将用户敏感信息保存至服务器,而服务器本身采用md5算 法或相关算法生成唯一值(session id),将该值保存值客户端浏览器,随后,客户端的后续请求,浏览器都会自动 携带该id,进而再在服务器端认证,进而达到状态保持的效果
cookie vs session
两者有什么区别呢?
- Cookie以文本文件格式存储在浏览器中,而session存储在服务端
- 因为每次发起 Http 请求,都要携带有效Cookie信息,所以Cookie一般都有大小限制,以防止增加网络压力,一 般不超过4k
- 可以轻松访问cookie值但是我们无法轻松访问会话值,因此session方案更安全
本地禁止cookie
要使用session,其实还是需要使用cookie机制来保存session id的,那么万一在 客户端cookie机制被禁掉了,那session貌似也就无法使用了?其实替代方法是有的
- 经常被使用的一种技术叫做URL重写,就是把session id直接附加在URL路径的后面。
- 还有一种技术叫做表单隐藏字段。就是服务器会自动修改表单,添加一个隐藏字段,以便在表单提交时能够把 session id传递回服务器