一、HTTP协议
1. http 相关概念
-
互联网:是网络的网络,是所有类型网络的母集
-
因特网:世界上最大的互联网网络。即因特网概念从属于互联网概念。习惯上,大家把连接在因特网上的计算机都成为主机。
-
万维网:WWW(world wide web)万维网并非某种特殊的计算机网络,是一个大规模的、联机式的信息贮藏库,使用链接的方法能非常方便地从因特网上的一个站点访问另一个站点(超链技术),具有提供分布式服务的特点。万维网是一个分布式的超媒体系统,是超文本系统的扩充,基于B/S架构实现
-
URL:万维网使用统一资源定位符(Uniform Resource Locator)来标志万维网上的各种文档,并使每个文档在整个因特网的范围内具有唯一的标识符URL。
-
HTTP:为解决"用什么样的网络协议来实现整个因特网上的万维网文档”这一难题,就要使万维网客户程序(以浏览器为主,但不限于浏览器)与万维网服务器程序之间的交互遵守严格的协议,即超文本传送协议(HyperText Transfer Protocol)。HTTP是处于应用层的协议,使用TCP传输层协议进行可靠的传送。因此,需要特别提醒的是,万维网是基于因特网的一种广泛因特网应用系统,且万维网采用的是HTTP(80/TCP)和 HTTPS(443/TCP)的传输协议,但因特网还有其他的网络应用系统(如:FTP、SMTP等等)。
-
HTML:为了解决"怎样使不同作者创作的不同风格的万维网文档,都能在因特网上的各种主机上显示出来,同时使用户清楚地知道在什么地方存在着链接”这一问题,万维网使用超文本标记语言(HyperText Markup Language),使得万维网页面的设计者可以很方便地用链接从页面的某处链接到因特网的任何一个万维网页面,并且能够在自己的主机品目上将这些页面显示出来。HTML与txt一样,仅仅是是一种文档,不同之处在于,这种文档专供于浏览器上为浏览器用户提供统一的界面呈现的统一规约。且具备结构化的特征,这是txt所不具备的强制规定。
2. 访问浏览器的过程
3. http 协议通信过程
HTTP(HyperText Transfer Protocol,超文本传输协议)是一种用于分布式、协作式和超媒体信息系统的应用层协议。HTTP是万维网的数据通信的基础设计HTTP最初的目的是为了提供一种远距离共享知识的方式,借助多文档进行关联实现超文本,连成相互参阅的WWW(world wide web,万维网)
4. HTTP 相关技术
4.1 WEB开发语言
http: Hyper Text Transfer Protocol 应用层协议,默认端口: 80/tcp
WEB前端开发语言:
-
html
-
css
-
javascript
html
Hyper Text Markup Language 超文本标记语言,编程语言,主要负责实现页面的结构
CSS
Cascading Style Sheet 层叠样式表, 定义了如何显示(装扮) HTML 元素,比如:字体大小和颜色属性等。样式通常保存在外部的 .css 文件中,用于存放一些HTML文件的公共属性,从而通过仅编辑一个简单的 CSS 文档,可以同时改变站点中所有页面的布局和外观。
js
javascript,实现网页的动画效果,但实属于静态资源
4.2 MIME
MIME : Multipurpose Internet Mail Extensions 多用途互联网邮件扩展
文件 /etc/mime.types ,来自于mailcap包
MIME格式:
type/subtype 主要类型/次要类型
范例:
text/plain
text/html
text/css
image/jpeg jpg jpeg
image/png
video/mp4
application/javascript
4.3 URI 和 URL
URI: Uniform Resource Identifier 统一资源标识,分为URL 和 URN
-
URN:Uniform Resource Naming,统一资源命名
-
URL:Uniform Resorce Locator,统一资源定位符,用于描述某服务器某特定资源位置
两者区别:
-
URN如同一个人的名称,而URL代表一个人的住址。换言之,URN定义某事物的身份,而URL提供查找该事物的方法。
-
URN仅用于命名,而不指定地URL组成
<scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag>
scheme:方案,访问服务器以获取资源时要使用哪种协议
user:用户,某些方案访问资源时需要的用户名
password:密码,用户对应的密码,中间用:分隔
Host:主机,资源宿主服务器的主机名或IP地址
port:端口,资源宿主服务器正在监听的端口号,很多方案有默认端口号
path:路径,服务器资源的本地名,由一个/将其与前面的URL组件分隔
params:参数,指定输入的参数,参数为名/值对,多个参数,用;分隔
query:查询,传递参数给程序,如数据库,用?分隔,多个查询用&分隔
frag:片段,一小片或一部分资源的名字,此组件在客户端使用,用#分隔
URL示例
4.4 网站访问量
网站访问量统计的重要指标
-
IP(独立IP):即Internet Protocol,指独立IP数。一天内来自相同客户机IP 地址只计算一次,记录远程客户机IP地址的计算机访问网站的次数,是衡量网站流量的重要指标
-
PV(访问量): 即Page View, 页面浏览量或点击量,用户每次刷新即被计算一次,PV反映的是浏览某网站的页面数,PV与来访者的数量成正比,PV并不是页面的来访者数量,而是网站被访问的页面数量
-
UV(独立访客):即Unique Visitor,访问网站的一台电脑为一个访客。一天内相同的客户端只被计算一次。可以理解成访问某网站的电脑的数量。网站判断来访电脑的身份是通过cookies实现的。如果更换了IP后但不清除cookies,再访问相同网站,该网站的统计中UV数是不变的
4.5 HTTP工作机制
一次http事务包括:
-
http请求:http request
-
http响应:http response
Web资源:web resource, 一个网页由多个资源(文件)构成,打开一个页面,通常会有多个资源展示出来,但是每个资源都要单独请求。因此,一个"Web 页面”通常并不是单个资源,而是一组资源的集合
资源类型:
-
静态文件:无需服务端做出额外处理,服务器端和客户端的文件内容相同
常见文件后缀:.html, .txt, .jpg, .js, .css, .mp3, .avi
-
动态文件:服务端执行程序,返回执行的结果,服务器端和客户端的文件内容不相同
常见文件后缀:.php, .jsp ,.asp
HTTP连接请求
串行和并行连接
串行,持久连接和管道
提高HTTP连接性能
-
并行连接:通过多条TCP连接发起并发的HTTP请求
-
持久连接:keep-alive,重用TCP连接,以消除连接和关闭的时延,以事务个数和时间来决定是否关闭连接
-
管道化连接:通过共享TCP连接,发起并发的HTTP请求
-
复用的连接:交替传送请求和响应报文(实验阶段)
4.6 HTTP协议版本
HTTP/0.9:
原型版本,功能简陋,只有一个命令GET。GET /index.html ,服务器只能回应HTML格式字符串,不能回应别的格式
HTTP/1.0:
它使用短连接方式,即每次HTTP请求都需要建立一个新的TCP连接。在HTTP/1.0中,每个HTTP请求和响应都需要包含完整的HTTP报文,包括请求行、请求头、请求体(对于POST请求)以及响应行、响应头、响应体。此外,HTTP/1.0不支持持久连接,每个TCP连接只能处理一个HTTP请求和响应。
HTTP/1.1:
它引入了许多新特性,包括持久连接、管道化连接、分块传输编码、请求头域的增强等。持久连接使得多个HTTP请求和响应可以复用同一个TCP连接,从而减少了连接建立和断开的开销。管道化连接允许客户端发送多个HTTP请求而不必等待每个请求的响应,从而提高了请求的并发效率。分块传输编码可以将响应体分成多个块进行传输,提高了数据传输的效率。此外,HTTP/1.1还引入了许多新的请求头域,如Host、Cache-Control、Content-Encoding等,增强了HTTP协议的灵活性和扩展性。
三者区别:
0.9 只有get 只有下载 没有上传(put)
1.0 没有长连接 可以下载和上传
1.1 支持长连接 可以下载和上传
HTTPS协议:
为解决安全问题,网景在1994年创建了HTTPS,并应用在网景导航者浏览器中。 最初,HTTP是与SSL一起使用的;在SSL逐渐演变到TLS时(其实两个是一个东西,只是名字不同而已),最新的HTTPS也由在2000年五月公布的RFC 2818正式确定下来。HTTPS就是安全版的HTTP,目前大型网站基本实现全站HTTPS
HTTPS特点
-
HTTPS协议需要到CA申请证书,一般免费证书很少,需要交费
-
HTTP协议运行在TCP之上,所有传输的内容都是明文,HTTPS运行在SSL/TLS之上,SSL/TLS运行在TCP之上,所有传输的内容都经过加密的
-
HTTP和HTTPS使用的是不同的连接方式,端口不同,前者是80,后者是443
-
HTTPS可以有效的防止运营商劫持,解决了防劫持的一个大问题
-
HTTPS 实现过程降低用户访问速度,但经过合理优化和部署,HTTPS 对速度的影响还是可以接受的
4.7 HTTP 请求访问的完整过程
-
建立连接
-
接收请求
-
处理请求
-
访问资源
-
构建响应报文
-
发送响应报文
-
记录日志
5. HTTP请求报文
request报文格式
<method> <request-URL> <version>
<headers>
<entity-body>
5.1 响应报文
response报文格式
<version> <status> <reason-phrase>
<headers>
<entity-body>
5.2 状态码
http协议状态码分类
1xx:100-101 信息提示
2xx:200-206 成功
3xx:300-307 重定向
4xx:400-415 错误类信息,客户端错误
5xx:500-505 错误类信息,服务器端错误
http协议常用的状态码
200: 成功,请求数据通过响应报文的entity-body部分发送;OK
301: 请求的URL指向的资源已经被删除;但在响应报文中通过首部Location指明了资源现在所处的新位置;Moved Permanently
302: 响应报文Location指明资源临时新位置 Moved Temporarily
304: 客户端发出了条件式请求,但服务器上的资源未曾发生改变,则通过响应此响应状态码通知客户端;Not Modified
307: 浏览器内部重定向
401: 需要输入账号和密码认证方能访问资源;Unauthorized
403: 请求被禁止;Forbidden
404: 服务器无法找到客户端请求的资源;Not Found
500: 服务器内部错误;Internal Server Error,比如:cgi程序没有执行权限
502: 代理服务器从后端服务器收到了一条伪响应,如无法连接到网关;Bad Gateway
503: 服务不可用,临时服务器维护或过载,服务器无法处理请求,比如:php服务停止,无法处理php程序
504: 网关超时
二、httpd 安装组成
http 服务基于 C/S 结构
1. 常见http 服务器程序
-
httpd apache,存在C10K(10K connections)问题
-
nginx 解决C10K问题lighttpd
-
IIS .asp 应用程序服务器
-
tomcat .jsp 应用程序服务器
-
jetty 开源的servlet容器,基于Java的web容器
-
Resin CAUCHO公司,支持servlets和jsp的引擎
-
webshpere:IBM公司
-
weblogic:BEA,Oracle
-
jboss:RedHat,IBM
-
oc4j:Oracle
2. apache介绍和特点
20世纪90年代初,美国国家超级计算机应用中心NCSA开发,1995年开源社区发布apache
apache 名字来源,流传最广的解释是(也是最显而易见的):这个名字来自于一个事实:当Apache在1995年初开发的时候,它是由当时最流行的HTTP服务器NCSA HTTPd 1.3的代码修改而成的,因此是"一个修补的(a patchy)”服务器。然而,在Apache服务器官方网站的FAQ中是这么解释的:"Apache这个名字是为了纪念名为Apache的美洲原住民印第安人的一支,众所周知他们拥有高超的作战策略和无穷的耐性。”贝伦多夫说:"我选择阿帕奇这个名字是取其积极含义。阿帕奇族是最后一个屈服于美国政府的民族。当时我们担心大公司迟早会参与竞争并‘教化’这块最早的网络之地,所以在我看来,阿帕奇是个很好的名称,也有人说这个词一语双关-因为正如Apache(与"a patchy"谐音)的名字所表明的那样,他们确实是在给服务器打补丁。”
apache官网: www.apache.org
软件基金会
-
ASF:apache software foundation
-
FSF:Free Software Foundation
apache 功能:
-
提供http协议服务
-
多个虚拟主机:IP、Port、FQDN
-
CGI:Common Gateway Interface,通用网关接口,支持动态程序
-
反向代理
-
负载均衡
-
路径别名
-
丰富的用户认证机制:basic,digest
-
支持第三方模块
apache 功能:
-
提供http协议服务
-
多个虚拟主机:IP、Port、FQDN
-
CGI:Common Gateway Interface,通用网关接口,支持动态程序
-
反向代理
-
负载均衡
-
路径别名
-
丰富的用户认证机制:basic,digest
-
支持第三方模块
apache特性:
-
高度模块化:core + modules
-
DSO:Dynamic Shared Object 动态加载/卸载
-
MPM:multi-processing module 多路处理模块
3. MPM multi-processing module 工作模式
prefork:多进程I/O模型,每个进程响应一个请求,CentOS 7 httpd默认模型一个主进程:生成和回收n个子进程,创建套接字,不响应请求多个子进程:工作 work进程,每个子进程处理一个请求;系统初始时,预先生成多个空闲进程,等待请求
Prefork MPM预派生模式,有一个主控制进程,然后生成多个子进程,每个子进程有一个独立的线程响应用户请求,相对比较占用内存,但是比较稳定,可以设置最大和最小进程数,是最古老的一种模式,也是最稳定的模式,适用于访问量不是很大的场景
优点:稳定
缺点:慢,占用资源,不适用于高并发场景
worker:复用的多进程I/O模型,多进程多线程,IIS使用此模型
一个主进程:生成m个子进程,每个子进程负责生个n个线程,每个线程响应一个请求,并发响应请求:m*n
worker MPM是一种多进程和多线程混合的模型,有一个控制进程,启动多个子进程,每个子进程里面包含固定的线程,使用线程程来处理请求,当线程不够使用的时候会再启动一个新的子进程,然后在进程里面再启动线程处理请求,由于其使用了线程处理请求,因此可以承受更高的并发。
优点:相比prefork 占用的内存较少,可以同时处理更多的请求
缺点:使用keep-alive的长连接方式,某个线程会一直被占据,即使没有传输数据,也需要一直等待到超时才会被释放。如果过多的线程,被这样占据,也会导致在高并发场景下的无服务线程可用。(该问题在prefork模式下,同样会发生)
event:事件驱动模型(worker模型的变种),CentOS8 默认模型
一个主进程:生成m个子进程,每个子进程负责生个n个线程,每个线程响应一个请求,并发响应请求:m*n,有专门的监控线程来管理这些keep-alive类型的线程,当有真实请求时,将请求传递给服务线程,执行完毕后,又允许释放。这样增强了高并发场景下的请求处理能力
event MPM是Apache中最新的模式,2012年发布的apache 2.4.X系列正式支持event 模型. 属于事件驱动模型(epoll),每个进程响应多个请求,在现在版本里的已经是稳定可用的模式。它和worker模式很像,最大的区别在于,它解决了keep-alive场景下,长期被占用的线程的资源浪费问题(某些线程因为被keep-alive,空挂在哪里等待,中间几乎没有请求过来,甚至等到超时)。event MPM中,会有一个专门的线程来管理这些keep-alive类型的线程,当有真实请求过来的时候,将请求传递给服务线程,执行完毕后,又允许它释放。这样增强了高并发场景下的请求处理能力event只在有数据发送的时候才开始建立连接,连接请求才会触发工作线程,即使用了TCP的一个选项,叫做延迟接受连接TCP_DEFER_ACCEPT,加了这个选项后,若客户端只进行TCP连接,不发送请求,则不会触发Accept操作,也就不会触发工作线程去干活,进行了简单的防攻击(TCP连接)
优点:单线程响应多请求,占据更少的内存,高并发下表现更优秀,会有一个专门的线程来管理keep-alive类型的线程,当有真实请求过来的时候,将请求传递给服务线程,执行完毕后,又允许它释放
缺点:没有线程安全控制
4. Httpd 安装和相关文件
4.1 包安装httpd并启动httpd服务
版本说明:
CentOS 7 以上,默认系统是httpd 2.4,CentOS 6 版默认为httpd 2.2
Ubuntu 18.04 默认 Apache/2.4.29
安装方式:
-
包安装: centos发行版,稳定,建议使用
-
编译:定制或特殊需求
范例:安装httpd 2.4
yum install httpd -y
4.2 httpd-2.4 相关文件
配置文件:
-
/etc/httpd/conf/httpd.conf 主配置文件
-
/etc/httpd/conf.d/*.conf 子配置文件
-
/etc/httpd/conf.d/conf.modules.d/ 模块加载的配置文件
检查配置语法:httpd -t 或 apache2 -t
服务单元文件:
-
/usr/lib/systemd/system/httpd.service
-
配置文件:/etc/sysconfig/httpd
服务控制和启动
-
systemctl enable|disable httpd.service
-
systemctl {start|stop|restart|status|reload} httpd.service
-
apachectl start|stop|restart|configtest
-
service httpd start|stop|restart|configtest
站点网页文档根目录:/var/www/html
模块文件路径:
-
/etc/httpd/modules
-
/usr/lib64/httpd/modules
主服务器程序文件:/usr/sbin/httpd
三、httpd常见配置
1. 指定服务器名
[root@centos7 ~]#httpd -t
AH00558: httpd: Could not reliably determine the server's fully qualified domain
name, using centos7.localdomain. Set the 'ServerName' directive globally to
suppress this message
Syntax OK
[root@centos7 ~]#vim /etc/httpd/conf/httpd.conf
#ServerName www.example.com:80
servername www.magedu.org
[root@centos7 ~]#httpd -t
Syntax OK
2. 包含其它配置文件
指令:
Include file-path|directory-path|wildcard
IncludeOptional file-path|directory-path|wildcard
说明:
Include和IncludeOptional功能相同,都可以包括其它配置文件
但是当无匹配文件时,include会报错,IncludeOptional会忽略错误
include 子配置文件
总目录
3. 监听地址
Listen [IP:]PORT
说明:
(1) 省略IP表示为本机所有IP
(2) Listen指令至少一个,可重复出现多次
范例:
可以写在子配置文件中
4. 隐藏服务器版本信息
5. 持久连接
Persistent Connection:连接建立,每个资源获取完成后不会断开连接,而是继续等待其它的请求完成,默认开启持久连接
断开条件:
-
时间限制:以秒为单位, 默认5s,httpd-2.4 支持毫秒级
-
请求数量: 请求数达到指定值,也会断开
副作用:对并发访问量大的服务器,持久连接会使有些请求得不到响应
折衷:使用较短的持久连接时间
持久连接相关指令:
KeepAlive On|Off
KeepAliveTimeout 15 #连接持续15s,可以以ms为单位,默认值为5s
MaxKeepAliveRequests 500 #持久连接最大接收的请求数,默认值100
6. DSO (Dynamic Shared Object)
Dynamic Shared Object,加载动态模块配置,不需重启即生效动态模块所在路径: /usr/lib64/httpd/modules/
主配置 /etc/httpd/conf/httpd.conf 文件中指定加载模块配置文件
查看静态编译的模块:httpd -l
查看静态编译及动态装载的模块:httpd -M
7. MPM (Multi-Processing Module)多路处理模块
httpd 支持三种MPM工作模式:prefork, worker, event
8. prefork模式相关的配置
StartServers 100
MinSpareServers 50
MaxSpareServers 80
ServerLimit 2560 #最多进程数,最大值 20000
MaxRequestWorkers 2560 #最大的并发连接数,默认256
MaxConnectionsPerChild 4000 #子进程最多能处理的请求数量。在处理MaxRequestsPerChild 个
请求之后,子进程将会被父进程终止,这时候子进程占用的内存就会释放(为0时永远不释放)
MaxRequestsPerChild 4000 #从 httpd.2.3.9开始被MaxConnectionsPerChild代替
9. worker和event模式相关的配置
ServerLimit 16 #最多worker进程数 Upper limit on configurable number of
processes
StartServers 10 #Number of child server processes created at startup
MaxRequestWorkers 150 #Maximum number of connections that will be processed
simultaneously
MinSpareThreads 25
MaxSpareThreads 75
ThreadsPerChild 25 #Number of threads created by each child process
10. 定义Main server的文档页面路径
说明:
-
DocumentRoot指向的路径为URL路径的起始位置
-
/path 必须显式授权后才可以访问
范例:
vim /etc/httpd/conf/httpd.conf
alias别名:
11. 虚拟主机
httpd 支持在一台物理主机上实现多个网站,即多虚拟主机
网站的唯一标识:
-
IP相同,但端口不同
-
IP不同,但端口均为默认端口
-
FQDN不同, IP和端口都相同
多虚拟主机有三种实现方案:
-
基于ip:为每个虚拟主机准备至少一个ip地址
-
基于port:为每个虚拟主机使用至少一个独立的port
-
基于FQDN:为每个虚拟主机使用至少一个FQDN,请求报文中首部
11.1 基于ip地址
listen 100
KeepAlive On
KeepaliveTimeout 300
MaxKeepAliveRequests 2
<Directory "/opt/html">
# Allow open access:
Require all granted
</Directory>
<VirtualHost 172.168.1.11> #地址1
ServerAdmin support@jfedu.net
DocumentRoot "/opt/html/11"
ServerName www.accp.com
ErrorLog "logs/11_error_log"
CustomLog "logs/11_access_log" common
</VirtualHost>
<VirtualHost 172.168.1.20> #地址2
ServerAdmin support@jfedu.net
DocumentRoot "/opt/html/20"
ServerName www.accp.com
ErrorLog "logs/20_error_log"
CustomLog "logs/20_access_log" common
</VirtualHost>
11.2 基于端口地址
listen 100
KeepAlive On
KeepaliveTimeout 300
MaxKeepAliveRequests 2
<Directory "/opt/html">
# Allow open access:
Require all granted
</Directory>
<VirtualHost 172.168.1.11:80>
ServerAdmin support@jfedu.net
DocumentRoot "/opt/html/11"
ServerName www.accp.com
ErrorLog "logs/11_error_log"
CustomLog "logs/11_access_log" common
</VirtualHost>
<VirtualHost 172.168.1.20:100>
ServerAdmin support@jfedu.net
DocumentRoot "/opt/html/20"
ServerName www.accp.com
ErrorLog "logs/20_error_log"
CustomLog "logs/20_access_log" common
</VirtualHost>
11.3 基于域名
listen 100
KeepAlive On
KeepaliveTimeout 300
MaxKeepAliveRequests 2
<Directory "/opt/html">
# Allow open access:
Require all granted
</Directory>
<VirtualHost 172.168.1.11>
ServerAdmin support@jfedu.net
DocumentRoot "/opt/html/11"
ServerName www.aaa.com
ErrorLog "logs/11_error_log"
CustomLog "logs/11_access_log" common
</VirtualHost>
<VirtualHost 172.168.1.20>
ServerAdmin support@jfedu.net
DocumentRoot "/opt/html/20"
ServerName www.bbb.com
ErrorLog "logs/20_error_log"
CustomLog "logs/20_access_log" common
</VirtualHost>
在配置文件中添加域名解析 vim /etc/hosts