Web基础与HTTP协议

醉凡尘￠ World1y

于 2022-05-17 18:45:25 发布

阅读量380

点赞数

文章标签： http 网络协议网络

本文链接：https://blog.csdn.net/WuDan_1112/article/details/124820815

版权

前言

对于我们学习云计算的人来说，服务是很重要的知识，这章将详细介绍一下web基础知识和HTTP协议的概念和作用。

一、Web基础

1.1 域名概述

域名的概念

IP地址不易记忆

早期使用Hosts文件解析域名、

主机名称重复
主机维护困难

/etc/hosts#配置文件
IP地址 主机名/域名 ……#组成Hosts文件

DNS (Domain Name System域名系统)

分布式
层次性

扩展：DNS解析的三种方法

① /etc/hosts
linux系统中负责快速解析的文件，包含了ip与主机名的映射关系，在没有DNS服务器的情况下，
使用本地/etc/hosts完成解析/映射，实现快速访问
PS: 主要用于主机之间（IP和主机名）的映射/解析关系，示例：
192.168.111.15 ceshi
192.168.111.100 node1
192.168.111.120 node2

② /etc/resolv.conf
DNS客户端配置文件，主要用于设置DNS服务器的IP和域名，还包含了主机域名的搜索顺序等等，
这个文件是由域名解析器（resolver，一个根据主机名解析IP地址的库）使用的配置文件。
PS:主要用与匹配DNS服务器，示例：
nameserver 114.114.114.114
nameserver 8.8.8.8

③ /etc/sysconfig/network-scripts/ifcfg-ens33
我们也可以在网卡配置文件中定义DNS1= DNS2=

生效顺序 1 hosts文件 2 网卡配置文件 3 /etc/resolv.conf

1.2 域名空间结构

定义：表示一组主机并提供它们的有关信息的树形结构

www.baidu.com

域名服务器（分布式，每台主机维护一个部分）：

① 保持和维护域名空间的程序

② 响应解析器的请求

域名空间结构（从右网左看）

根域
顶级域
- 组织域
- 国家/地区域名
二级域名
FQDN=主机名.DNS后缀

1.3 域名注册

域名注册是Internet中用于解决地址对应问题的一种方法

遵循先申请先注册原则

域名注册步骤

注：域名注册是Internet 中用于解决地址对应问题的一种方法；遵循先申请先注册原则

扩展：阿里云域名怎么申请的？

申请--》查询重名--》给钱（20-60元）--》备案（阿里云）拍照（负责人拍照人）--》 10-20天申请之后就可以解析和使用，但是如果有问题就会被封

1.4 网页的概念

网页
●纯文本格式文件
●编写语言为HTML
在用户的浏览器中被“ 翻译”成网页形式显示出来

网站
●由一个一个页面构成的，是多个网页的结合体主页
●打开网站后出现的第一个网页称为网站主页(或首页)

域名
●浏览网页时输入的网址
HTTP
●用来传输网页的通信协议

URL
●是一种万维网寻址系统

HTML
●用来编写网页的超文本标记语言

超链接
●超链接是将网站中不同网页链接起来的功能

发布
●是一种万维网寻址系统

1.5 HTML概述

1.5.1 HTML超文本标记语言

Hyper text markup language
网页的“源码”

浏览器:“解释和执行” HTML源码的工具

1.5.2 HTML文档的结构

HTML网页
头部部分
标题部分
主体部分
网页内容，包括文本、图像等

<htm|>
<head>
<title>我的第一个网页</title>
</head>#标签内容
#主题代码部分    
<body>
    Hello World!
</body>

</htm|>

1.6 网页基本标签

网页摘要信息的作用

有利于浏览器解析
有利于搜索引擎搜索

<title>标签

<meta> 标签

<head>
 <title> 搜狐-中国最大的门户网站
 </title>
</head>

<head>
 <meta name="keywords">
 content="挖掘机哪家强！"/>
</head>

标题标签

行控制相关标签

范围标签

图像标签

超链接标签

特殊符号

<!DOCTYPE html>
<html>
	<head>
		<meta charset="utf-8">
		<title>第一个网页</title>
	</head>
	<body>
		<h2 style="color:blue">静夜思</h2>
		<h3>床前明月光</h3>
		<h3>疑是地上霜</h3>
		<h3>举头望明月</h3>
		<h3>低头思故乡</h3>
		<img src="xx.jpg" width="250px" high="300px" />
	</body>
</html>

头标签中常用标签：

标签        描述
<title>       定义了文档的标题
<base>        定义了页面链接标签的默认链接地址
<link>        定义了一个文档和外部资源之间的关系
<meta>        定义了 HTML 文档中的元数据
<script>      定义了客户端的脚本文件
<style>       定义了 HTML 文档的样式文件

内容标签常用标签：

<table>       定义一个表格
<tr>        定义了表格中的一行
<td>        定义了表格中某一行的一列
<img>       定义了一个图像
<a>         定义了一个超链接
<p>         定义了一行
<br>        定义了换行
<font>        定义了字体

1.7 Web概述

1.7.1 web 介绍

Web (World Wide Web)即全球广域网，也称为万维网

一种分布式图形信息系统。

建立在Internet上的一种网络服务

1.7.2 Web 1.0

以编辑为特征，网站提供给用户的内容是编辑处理后的，然后用户阅读网站提供的内容

这个过程是网站到用户的单向行为

1.7.3 Web2.0

更注重用户的交互作用，用户既是网站内容的消费者(浏览者)，也是网站内容的制造者

加强了网站与用户之间的互动，网站内容基于用户提供，网站的诸多功能也由用户参与建设,实现了网站与用户双向的交流与

Web2.0特征

用户分享、以兴趣为聚合点的社群、开放的平台，活跃的用户

1.8 静态网页

静态网页是标准的HTML文件

扩展名是.htm、.html
文本、图像、声音、FLASH动画、客户端脚本和Activex控件及JAVA小程序等
是网站建设的基础，早期网站一般都有静态网页制作
没有后台数据库、不含程序和不可交互的网页
相对更新起来比较麻烦，适用于一般更新较少的展示型网站

1.8.1 静态网页的特点

每个静态网页都有一个固定的URL，且URL以.htm、.html、.shtml等常见形式为后缀，而不含有“？”
网页内容一经发布到网站服务器上，无论是否有用户访问，每个静态网页都是保存在网站服务器上的，也就是说，静态网页是实实在在保存在服务器上的文件，每个网页都是一个独立的文件
静态网友的内容相对稳定，因此容易被搜索引擎检索

静态网页没有数据库的支持，在网站制作和维护方面工作量较大，因此当网站信息量很大时完全依靠静态网页制作方式比较困难
静态网页的交互性较差，在功能方面有较大的限制
页面浏览速度迅速，过程无需连接数据库，开启页面速度快于动态页面

1.9 动态网页

网页URL不固定，能通过后台与用户交互
在动态网页网址中有一个标志性的符号——“？”
常用的语言有PHP、JSP、Python、Ruby等

1.9.1 动态网页的特点

交互性

即网页会根据用户的要求和选择而动态改变和响应，将浏览器作为客户端界面，这将是今后WEB发展的大势所趋

自动更新

无须手动地更新HTML文档，便会自动生成新的页面，可以大大节省工作量

因时因人而变

当不同的时间，不同的人访问同一网址时会产生不同的页面

扩展：目前常用的动态网页编程语言如下:

●PHP
即Hypertext Preprocessor (超文本预处理器)，它是当今Internet上最为火热的脚本语言，其语法借鉴了C、 Java、PERL
等语言，但只需要很少的编程知识你就能使用PHP 建立一个真正交互的Web站点。
●JSP
即Java Server Pages (Java服务器页面)，它是由Sun Microsystem 公司于1999 年6月推出的新技术，是基于Java Servlet
以及整个Java 体系的Web开发技术。
●Python
是一种面向对象、跨平台的动态类计算机程序设计语言，最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添
加，越来越多被用于独立的大型项目开发。

●Ruby
是一种简单快捷的面向对象( 面向对象程序设计)脚本语言，在20世纪90年代由日本人松本行弘(Yukihiro Matsumoto)开发，遵守GPL协议和Ruby License。它的灵感与特性来自于Perl、 Smalltalk、 Eiffel、Ada 以及Lisp 语言。

二、 HTTP协议

2.1 HTTP协议介绍

HTTP（超文本传输协议HyperText Transfer Protocol）协议是互联网上应用最为广泛的一种网络协议，是基于TCP设计的应用层传输协议，这个协议的目的是为了发布和接受web服务器上的HTML页面。

HTTP/HTTPS是应用层上的协议，建立在传输层TCP之上，客户端通过与服务端进行tcp连接（三次握手），之后发送http请求与接收http响应都是通过socket接口来调用tcp 协议实现。

HTTP 是一种无状态（stateless）的协议，它本身不会对发送过的请求和响应的通信状态进行持久化处理（处理，保存）。目的是为了保持HTTP协议的简单性，从而更够快速处理大量事务，提高效率。然而，在许多的应用场景中，我们需要保持用户登录的专题或记录用户购物车中的商品。所以必须引入一些计数来记录管理状态，例如：cookie

cookie 和session 都是为了实现HTTP短期的持久化（内存/缓存方式，查询快，效率比较高）；

cookie 是缓存在用户端浏览器中的（默认缓存一天），当下次客户端通过同一个浏览器访问客户端的时候，会有限读取cookie中的缓存信息，项服务端进行请求，同时服务器收到客户端请求的时候，读取到cookie 文件，知道客户端之前找的是服务器A处理的任务，为了省事，省资源，干脆直接将请求交给服务器A处理。

两者对比:

cookie : 省服务器性能

session : 更安全

HTTP协议的版本

HTTP 0.9 已过时
HTTP 1.0 完善的请求，响应模型，并且协议补充完整，如：get 、post、head方法
HTTP 1.1 在1.0 基础上进行更新，新增无助请求方式：OPTIONS, PUT , DELETTE, TRACE , CONNECT
HTTP 2.0

2.2 HTTP方法

HTTP支持几种不同的请求命令，这些命令被称为HTTP方法（HTTP method）

每条HTTP请求报文都包含一个方法，告诉服务器要执行什么动作
获取一个Web页面
运行一个网关程序
删除一个文件等

HTTP协议有多种获得Web资源的方法

常用的方法：GET和POST

HTTP方法	描述
GET	请求获取Request-URI所标识的资源
PUT	请求服务器存储一个资源，并用Request-URI作为其标识
DELETE	请求服务器删除Request-URI所1标识的资源
POST	在Request-URI所标识的资源后附加新的数据
HEAD	请求获取由Request-URI所标识的资源的响应消息报头

1、GET请求会向数据库发索取数据的请求，从而来获取信息，该请求就像数据库的select操作一样，只是用来查询一下数据，不会修改、增加数据，不会影响资源的内容，即该请求不会产生副作用。无论进行多少次操作，结果都是一样的。
2、与GET不同的是，PUT请求是向服务器端发送数据的，从而改变信息，该请求就像数据库的update操作–样，用来修改数据的内容，但是不会增加数据的种类等，也就是说无论进行多少次PUT操作，其结果并没有不同。
3、POST请求同PUT请求类似，都是向服务器端发送数据的，但是该请求会改变数据的种类等资源，就像数据库的insert操作一样，会创建新的内容。几乎目前所有的提交操作都是用POST请求的。
4、DELETE请求顾名思义，就是用来删除某一个资源的，该请求就像数据库的delete操作

2.3 GET和POST 比较

GET方法：从指定的服务器上获得数据

GET请求能被缓存
GET请求会保存在浏览器的浏览纪录里
GET请求有长度的限制
主要用于获取数据
查询的字符串会显示在URL中，不安全

POST方法：提交数据给指定服务器处理

POST请求不能被缓存
POST请求不会保存在浏览器的浏览纪录里
POST请求没有长度长度限制
查询的字符串不会显示在URL中，比较安全

2.4 HTTP 状态码

HTTP状态码(HTTP Status Code) 是用以表示网页服务器HTTP 响应状态的3位数字代码，当浏览器请求某一URL时，服务器根据处理情况返回相应的处理状态。
通常正常的状态码为2xx，3xx （如200），如果出现异常会返回4xx，5xx （如404）。

状态码首位	已定义范围	分类
1xx	100-101	信息提示
2xx	200-206	成功
3xx	300-305	重定向
4xx	400-415	客户端错误
5xx	500-505	服务器错误

生产环境常见的HTTP状态码

消息	描述
200 OK	请求成功
301 Moved Permantly	请求的永久页面跳转
403 Forbidden	禁止访问该页面
404 Not Found	服务器无法找到被请求的页面
500 Internal Server Error	内部服务器错误
502 Bad Gateway	无效网关
503 Service Unavailable	当前服务器不可用
504 Gateway Timeout	网关请求超时

2.5 HTTP请求流程分析

用户在浏览器输入URL访问时，发起HTTP请求报文，请求中包括请求行、请求头、请求体，服务器收到请求后返回响应报文，包括状态行、响应头、响应体。

2.5.1 请求报文

请求行:请求行由请求方法、URL 以及协议版本三部分组成。
请求头:请求头为请求报文添加了- -些附加信息，由“名/值"对组成，每行一-对，名和值之间使用冒号分隔。
空行:请求头部的最后会有一-个空行，表示请求头部结束，接下来为请求体，这- -行非常重要，必不可少。
请求体:请求体是请求提交的参数，GET方法已经在URL中指明了参数，所以提交时没有数据。POST 方法提交的参数在请求体中。

常用的请求头：

请求头	描述
Host	接受请求的服务器地址，可以是 IP:端口号，也可以是域名
User-Agent	发送请求的应用程序名称
Connection	指定与连接相关的属性，如 Connection:Keep-Alive
Accept-Charset	通知服务端可以发送的编码格式
Accept-Encoding	通知服务端可以发送的数据压缩格式
Accept-Language	通知服务端可以发送的语言

2.5.2 响应报文

状态行:状态行由协议版本，状态码，状态码描述三部分组成。
响应头:响应头与请求头部类似，为响应报文添加了–些附加信息。
空行:响应头部的最后会有一一个空行，表示响应头部结束。
响应体:服务器返回的相应HTML数据，浏览器对其解析后显示页面。

常见响应头：

响应头	描述
Server	服务器应用程序软件的名称和版本
Content-Type	响应正文的类型（是图片还是二进制字符串）
Content-Length	响应正文长度
Content-Charset	响应正文使用的编码
Content-Encoding	响应正文使用的数据压缩格式
Content-Language	响应正文使用的语言

2.6 HTTP请求流程

HTTP请求是指：
客户端通过发送 HTTP 请求向服务器请求对资源的访问。
它向服务器传递了一个数据块，也就是请求信息，
HTTP 请求由三部分组成：请求行、请求头和请求正文。

用户输入URL（地址链接)(http://www.baidu.com:80/tools.html)客户端获取到端口及主机名后，客户端利用DNS解析域名，首先客户端的浏览器会先找自身的缓存，如果有解析结束，如果没有客户端会去找host文件，如果host文件没有的话，客户端会去找本地的DNS缓存服务器，本地的DNS缓存服务器没有的话，缓存服务器会去找根域，根域没有，会返回一个.com.然后本地缓存服务器会去找顶级域，顶级域没有的话会返回baidu.com.,然后本地缓存服务器会去找二级域，二级域解析完后会返回客户端。

客户端解析到IP地址后会通过TCP的三次握手与服务器建立连接，首先客户端向服务器发送请求连接报文，SYN=1初始序号seq为x，这时客户端进入SYN-SENT状态，服务器确认请求报文ACK=1,SYN=1,确认序号ACK=X+1，服务器产生的初始序号seq=y，回复客户端确认连接，此时服务器进入SYN-RCVD状态，客户端接受后确认报文ACK=1,ACK=y+1，客户端又重组序号为x+1。TCP连接已经建立，客户端进入ESTABLISHED 状态，当服务器收到客户端的确认后，也会进入 ESTABLISHED 状态。客户端连接到IP地址，发送httpGET的请求，从服务器读取http响应。

之后断开连接时，需要通过TCP的四次挥手完成，客户端向服务器发送断开连接请求报文，FIN=1,ACK=1,序号为u,客户端处于FIN—WAIT-1（终止等待1）状态，服务器确认报文ACK=1,确认序号为ACK=u+1,服务器的序号为v,回复客户端，服务器服务端处于CLOSE—WAIT（关闭等待）状态，客户端接受确认报文ACK=1,确认序号ACK=v+1,客户端重组序号为seq=u+1，客户端处于FIN—WAIT-2（终止等待2）状态，然后服务器也想让客户端断开连接，就发送了断开连接请求，FIN=1，ACK=1,服务器重组序号为w,服务器服务端处于LAST—ACK（最后确认）状态，客户端接受后确认报文ACK=1.确认序号为ACK=w+1,客户端序号为u+1，客户端进入CLOSED（时间等待）状态，等待最长报文段寿命2*MSL,服务器确认后，立即进入关闭状态。然后进行关闭连接。