计算机网络基础6-- http服务和apache

最新推荐文章于 2024-04-09 16:40:33 发布

一个两个四个三

最新推荐文章于 2024-04-09 16:40:33 发布

阅读量1.1k

点赞数 1

分类专栏：计算机网络基础文章标签： apache http 网络

本文链接：https://blog.csdn.net/luofeng_/article/details/125364214

版权

计算机网络基础专栏收录该内容

8 篇文章 0 订阅

订阅专栏

第四章、应用层协议：http服务和apache

http协议属于应用层协议，apache是一款市场占用率最高的web服务软件，提供http服务；另外linux上Nginx应用也比较广泛。
Httpd是Apache服务器的的主程序，是一个独立运行的后台进程。Httpd软件（程序）对应的有Httpd2.2和Httpd2.4版本

本章内容：

socket概念
http协议
Httpd介绍
Httpd2.2配置
Httpd2.4配置
HTTP协议首部格式
编译安装httpd

4.1 socket

socket address：网络通讯中，远程用户通过socket地址找到服务器对应的程序。IP地址和端口号，合称为socket address（套接字地址），套接字地址用来唯一的标识应用程序；通过socket address，找到应用程序并与之通讯。

socket address 标识了一个唯一的客户/服务器进程。网络开发中，必不可少的涉及到socket对象的创建，与应用程序关联起来。

4.1.1 socket

socket，套接字，是进程间跨网络通信的一种实现。

以下图为例：分组信息通过网络媒到达数据链路层，数据链路层根据mac地址判断是不是本机mac；如果是，则把分组传到网络层，网络层根据分组类型（tcp/udp）将分组传给传输层；传输层将拿到的分组，根据端口号最终把信息传递给应用程序。

socket套接字

1、Socket API：封装了内核中所提供的socket通信相关的系统调用。python库：socket。python socket库参数解析：

Socket Domain：根据其所使用的IP地址类型,可选择AF_INET、AF_INET6、AF_UNIX。

AF_INET：Address Family，IPv4
AF_INET6：IPv6
AF_UNIX：同一主机上不同进程之间通信时使用
PS: 同一台主机不同程序之间通信，如果还走分组封装/解封装的过程，非常浪费资源。通过AF_NNIX，程序之间通过socket通信文件实现通信，消息发送程序将消息传给socket文件，socket收到文件后将消息传给接收程序，效率提高了。
Linux中，ll 查看，类型s开头的文件，就是socket文件。

Socket Type：根据使用的传输层协议选择，可选择SOCK_STREAM、SOCK_DGRAM、SOCK_RAW:

SOCK_STREAM：流，tcp套接字，可靠地传递、面向连接
SOCK_DGRAM：数据报，udp套接字，不可靠地传递、无连接
SOCK_RAW: 裸套接字,无须tcp或tdp,APP直接通过IP包通信

Socket库使用示例：

socket_套接字函数

#!/usr/bin/env python3
import socket

HOST = '192.168.124.9'
PORT = 9527
BUFFER = 4096


def server():
    """服务端接口"""
    sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)   # 创建一个套接字实例
    sock.bind((HOST, PORT))  # 绑定IP和端口
    sock.listen(3)  # 打开监听，允许socket连接
    print('tcpServer listen at: %s:%s\n\r' % (HOST, PORT))
    while True:
        client_sock, client_addr = sock.accept()  # 接受连接
        print('%s: connect' % client_addr)
        while True:
            recv = client_sock.recv(BUFFER)  # 接收
            if not recv:
                print('Server: close connect')
                client_sock.close()  # 关闭连接
                break
            print('[Client %s:%s said]:%s' % (client_addr[0], client_addr[1], recv))
        client_sock.send('tcpServer has received your message')  # 发送

def client():
    """客户端接口"""
    sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    sock.connect((HOST, PORT))
    sock.send('hello, I\'m tcp Request!')
    recv = sock.recv(BUFFER)
    print('[tcpServer said]: %s' % recv)
    sock.close()

服务端：首先创建一个socket对象（指定类型（TCP/UDP协议）和IP类型（IPV4/IPV6））；然后调用bind函数，与本机IP和应用程序端口号绑定；再次打开监听，监听客户端的连接请求。
客户端：客户端不需要调用bind函数，其端口号是随机的。客户创建socket实例后，调用connect函数，发起连接请求。

4.2 http服务

http(Hyper Text Transfer Protocol, 80/tcp)，超文本传输协议。http请求的通信过程与上例类似，换成http服务的端口号80。

http服务通信过程

http服务通信过程1

4.2.1 http服务相关术语

1、html: Hyper Text Markup Language 超文本标记语言，编程语言。本文档撰写的markdown也是一种标记语言，网络上很多的博客都使用markdown。

PS:xxx.html只是一种文档格式，html只是http请求中传输的一种数据格式。
前端开发中，还有一些常用语言：比如CSS（Cascading Style Sheet，层叠样式表），便于统一网页格式风格，javascript，前端语言。

2、MIME：Multipurpose Internet Mail Extensions，多用途互联网邮件扩展。http/0.9只支持html格式，http1.0引入了MIME，使得http服务可以传输多种格式的文件。

MIME支持的文件类型非常多，所以把这些类型组织分为一级类型和二级类型，linux可通过/etc/mime.types查看。
http头部信息的Content-Type字段声明了传输的文件类型（一级类型/二级类型），比如：“application/json3、audio/mp3”

3、http版本迭代

http/0.9，只支持传输html格式的数据。
http/1.0，扩展支持cache、MIME等，每个tcp连接只能发送一个请求，数据发送完毕就关闭。效率低，每个请求都要三次握手建立连接。
1997年，http/1.1：http/1.1引入持久连接，tcp连接默认不关闭（不用声明Connection：keep-alive），可以被多个请求复用。引入管道极值，即在同一个TCP连接里，客户端可以同时发送多个请求，进一步改进了HTTP协议的效率。

同一个连接，大多数浏览器允许同时连接6个持久连接
同一个连接多个请求，数据通信按次序进行，因此有队头堵塞（head-of-line blocking）问题。

2015年，http/2.0：http/2.0之前的头部信息是ASCII码，可以直接读懂，http2.0头部和数据部分都是二进制。http/2.0复用TCP连接，多个请求时不用按顺序，优化了队友堵塞问题。同时运行头部压缩，允许服务端未经请求主动向客户端推送资源。

4、http工作机制
一次http事务，就是请求<-->响应。

PS:一个网页由多个资源构成，打开一个页面，会有多个资源展示出来，但是每个资源都要单独请求。因此，一个“Web 页面”通常并不是单个资源，而是一组资源的集合。F12查看一次请求的资源集合。这些资源分为静态资源和动态资源，动态资源是先在服务端执行相应的程序，返回的内容是程序执行的结果。
静态文件：无需服务端做出额外处理。例如后缀.jpg, .html, .txt, .js, .css, .mp3, .avi文件。
动态文件：服务端执行程序，返回执行的结果，例如后缀.asp, .php, .jsp文件。试想，一个淘宝网页，每一个资源都是动态文件的化，服务器压力该有多大，所以优化减少动态文件是提高http服务性能的方向之一。

提高HTTP连接性能

并行连接：通过多条TCP连接发起并发的HTTP请求
持久连接：keep-alive,长连接，重用TCP连接，以消除连接和关闭的时延,以事务个数和时间来决定是否关闭连接
管道化连接：通过共享TCP连接发起并发的HTTP请求
复用的连接：交替传送请求和响应报文

5、URI：Uniform Resource Identifier 统一资源标识，分为URL和URN。

URN: Uniform Resource Naming，统一资源命名。URN只是资源的名字，不代表互联网上名叫这个资源的位置。

示例： P2P下载使用的磁力链接是URN的一种实现，P2P原理就是人人为我，我为人人，我在下载资源的同时，也在上传这个资源，所以URN所代表的资源可能在互联网任何位置。

URL: Uniform Resource Locator，统一资源定位符，用于描述某服务器某特定资源位置
URN如同一个人的名称，而URL代表一个人的住址。换言之，URN定义某事物的身份，而URL提供查找该事物的方法。URN仅用于命名，而不指定地址。互联网上使用URL最多，URN太过占用带宽，应用范围少。
URL组成：<scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag>

scheme: 方案，访问服务器以获取资源时要使用哪种协议
user: 用户，某些方案访问资源时需要的用户名
password: 密码，用户对应的密码，中间用：分隔
Host: 主机，资源宿主服务器的主机名或IP地址
port: 端口,资源宿主服务器正在监听的端口号，很多方案有默认端口号，如果scheme是http8080端口，默认可以不写。
path: 路径,服务器资源的本地名，由一个/将其与前面的URL组件分隔
params: 参数，指定输入的参数，参数为名/值对，多个参数，用;分隔
query: 查询，传递参数给程序，如数据库，用？分隔,多个查询用&分隔
frag: 片段,一小片或一部分资源的名字，此组件在客户端使用，用#分隔

示例：

1、访问京东-毛巾浴巾页面的URL为: https://coll.jd.com/list.html?sub=39228 ，其中?sub=39228就是query字段，代表从数据库查询这个分类。
2、访问apache网站http-server的指令参数说明URL：https://httpd.apache.org/docs/2.4/mod/quickreference.html#M ，由于指令按字母序从A-Z，都在一个大的页面，被分片为很多个小页面,其中#M就代表一个分片。

6、网站访问量

IP(独立IP)：即Internet Protocol,指独立IP数。一天内来自相同客户机IP地址只计算一次，记录远程客户机IP地址的计算机访问网站的次数，是衡量网站流量的重要指标
PV(访问量)：即Page View, 页面浏览量或点击量，用户每次刷新即被计算一次，PV反映的是浏览某网站的页面数，PV与来访者的数量成正比，PV并不是页面的来访者数量，而是网站被访问的页面数量
UV(独立访客)：即Unique Visitor,访问网站的一台电脑为一个访客。一天内相同的客户端只被计算一次。可以理解成访问某网站的电脑的数量。网站判断来访电脑的身份是通过来访电脑的cookies实现的。如果更换了IP后但不清除cookies，再访问相同网站，该网站的统计中UV数是不变的

PS：http://www.alexa.cn/，网站排名查询

4.2.3 web服务请求过程

web服务请求处理步骤

1、建立连接：接收或拒绝连接请求

2、接收请求：接收客户端请求报文中对某资源的一次请求的过程。
请求响应的Web访问响应模型（Web I/O）：

web访问响应模型

单进程I/O模型：启动一个进程处理用户请求，而且一次只处理一个，多个请求被串行响应。如下图（a）所示。

一个进程循环依次处理单个http连接请求。

多进程I/O模型：并行启动多个进程,每个进程响应一个连接请求
复用I/O结构：启动一个进程，同时响应N个连接请求

实现方法：多线程模型和事件驱动
多线程模型：一个进程生成N个线程，每线程响应一个连接请求
事件驱动：一个进程处理N个请求
如下图（c）所示，一个连接复用器同时接受多个连接请求。把每一个连接丢到一个线程中处理。

复用的多进程I/O模型：启动M个进程，每个进程响应N个连接请求，同时接收M*N个请求

复用I/O结构的加强版！

curl -I +域名，查看互联网上的网站的响应报文首部，包括使用的web服务类型等信息。

3、处理请求：服务器对请求报文进行解析，并获取请求的资源及请求方法等相关信息，根据方法，资源，首部和可选的主体部分对请求进行处理。

HTTP常用请求方式：Method、GET、POST、HEAD、PUT、DELETE、TRACE、OPTIONS
示例：访问百度的请求头：

请求元数据

4、访问资源：
服务器获取请求报文中请求的资源web服务器，即存放了web资源的服务器，负责向请求者提供对方请求的静态资源，或动态运行后生成的资源

资源放置于本地文件系统特定的路径，例如访问www.changan.com.cn，网页上的图片资源存放路径：https://www.changan.com.cn/js/0.js，即/js/。
web服务器静态资源，可以配置路径映射，生成伪静态路径。

PS：盗链：例如，一个网站的html资源中的一张图片，实际上引用了其他网站的图片资源。盗链行为相当于用别人的web服务器资源为我服务，所以很吃亏，有很多反盗链的技术。

5、构建响应报文：
一旦Web服务器识别出了资源，就执行请求方法中描述的动作，并返回响应报文。响应报文中包含有响应状态码、响应首部，如果生成了响应主体的话，还包括响应主体
响应头部信息

响应头部信息

响应实体：如果事务处理产生了响应主体，就将内容放在响应报文中回送过去。响应报文中通常包括：

描述了响应主体MIME类型的Content-Type首部
描述了响应主体长度的Content-Length
实际报文的主体内容

URL重定向：web服务构建的响应并非客户端请求的资源，而是资源另外一个访问路径

比如一些网站域名发生了变化，但是通过老的域名仍然可以访问，老域名重定向到新的域名，比如访问京东的老域名，自动重定向到新的域名：http://www.360buy.com

MIME类型：Web服务器要负责确定响应主体的MIME类型。一般根据后缀就可以区分。

6、发送响应报文
Web服务器通过连接发送数据时也会面临与接收数据一样的问题。服务器可能有很多条到各个客户端的连接，有些是空闲的，有些在向服务器发送数据，还有一些在向客户端回送响应数据。
服务器要记录连接的状态，还要特别注意对持久连接的处理。对非持久连接而言，服务器应该在发送了整条报文之后，关闭自己这一端的连接。
对持久连接来说，连接可能仍保持打开状态，在这种情况下，服务器要正确地计算Content-Length首部，不然客户端就无法知道响应什么时候结束了。

7、记录日志
最后，当事务结束时，Web服务器会在日志文件中添加一个条目，来描述已执行的事务。