计算机网络基础6-- http服务和apache

第四章、 应用层协议:http服务和apache

http协议属于应用层协议,apache是一款市场占用率最高的web服务软件,提供http服务;另外linux上Nginx应用也比较广泛。
Httpd是Apache服务器的的主程序,是一个独立运行的后台进程。Httpd软件(程序)对应的有Httpd2.2Httpd2.4版本

本章内容:

  • socket概念
  • http协议
  • Httpd介绍
  • Httpd2.2配置
  • Httpd2.4配置
  • HTTP协议首部格式
  • 编译安装httpd

4.1 socket

socket address:网络通讯中,远程用户通过socket地址找到服务器对应的程序。IP地址和端口号,合称为socket address(套接字地址),套接字地址用来唯一的标识应用程序;通过socket address,找到应用程序并与之通讯。

socket address 标识了一个唯一的客户/服务器进程。网络开发中,必不可少的涉及到socket对象的创建,与应用程序关联起来。

4.1.1 socket

socket,套接字,是进程间跨网络通信的一种实现。

以下图为例:分组信息通过网络媒到达数据链路层,数据链路层根据mac地址判断是不是本机mac;如果是,则把分组传到网络层,网络层根据分组类型(tcp/udp)将分组传给传输层;传输层将拿到的分组,根据端口号最终把信息传递给应用程序。

socket套接字

socket套接字

1、Socket API:封装了内核中所提供的socket通信相关的系统调用。python库:socket。python socket库参数解析

  • Socket Domain: 根据其所使用的IP地址类型,可选择AF_INETAF_INET6AF_UNIX

AF_INET:Address Family,IPv4
AF_INET6:IPv6
AF_UNIX:同一主机上不同进程之间通信时使用
PS: 同一台主机不同程序之间通信,如果还走分组封装/解封装的过程,非常浪费资源。通过AF_NNIX,程序之间通过socket通信文件实现通信,消息发送程序将消息传给socket文件,socket收到文件后将消息传给接收程序,效率提高了。
Linux中,ll 查看,类型s开头的文件,就是socket文件。

  • Socket Type:根据使用的传输层协议选择,可选择SOCK_STREAMSOCK_DGRAMSOCK_RAW:

SOCK_STREAM:流,tcp套接字,可靠地传递、面向连接
SOCK_DGRAM:数据报,udp套接字,不可靠地传递、无连接
SOCK_RAW: 裸套接字,无须tcp或tdp,APP直接通过IP包通信

#!/usr/bin/env python3
import socket

HOST = '192.168.124.9'
PORT = 9527
BUFFER = 4096


def server():
    """服务端接口"""
    sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)   # 创建一个套接字实例
    sock.bind((HOST, PORT))  # 绑定IP和端口
    sock.listen(3)  # 打开监听,允许socket连接
    print('tcpServer listen at: %s:%s\n\r' % (HOST, PORT))
    while True:
        client_sock, client_addr = sock.accept()  # 接受连接
        print('%s: connect' % client_addr)
        while True:
            recv = client_sock.recv(BUFFER)  # 接收
            if not recv:
                print('Server: close connect')
                client_sock.close()  # 关闭连接
                break
            print('[Client %s:%s said]:%s' % (client_addr[0], client_addr[1], recv))
        client_sock.send('tcpServer has received your message')  # 发送

def client():
    """客户端接口"""
    sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    sock.connect((HOST, PORT))
    sock.send('hello, I\'m tcp Request!')
    recv = sock.recv(BUFFER)
    print('[tcpServer said]: %s' % recv)
    sock.close()

服务端:首先创建一个socket对象(指定类型(TCP/UDP协议)和IP类型(IPV4/IPV6));然后调用bind函数,与本机IP和应用程序端口号绑定;再次打开监听,监听客户端的连接请求。
客户端:客户端不需要调用bind函数,其端口号是随机的。客户创建socket实例后,调用connect函数,发起连接请求。


4.2 http服务

http(Hyper Text Transfer Protocol, 80/tcp),超文本传输协议。http请求的通信过程与上例类似,换成http服务的端口号80。
http服务通信过程

http服务通信过程
http服务通信过程1

http服务通信过程1

4.2.1 http服务相关术语

1、html: Hyper Text Markup Language 超文本标记语言,编程语言。本文档撰写的markdown也是一种标记语言,网络上很多的博客都使用markdown。

PS:xxx.html只是一种文档格式,html只是http请求中传输的一种数据格式
前端开发中,还有一些常用语言:比如CSS(Cascading Style Sheet,层叠样式表),便于统一网页格式风格,javascript,前端语言。

2、MIME:Multipurpose Internet Mail Extensions,多用途互联网邮件扩展。http/0.9只支持html格式,http1.0引入了MIME,使得http服务可以传输多种格式的文件。

MIME支持的文件类型非常多,所以把这些类型组织分为一级类型和二级类型,linux可通过/etc/mime.types查看。
http头部信息的Content-Type字段声明了传输的文件类型(一级类型/二级类型),比如:“application/json3、audio/mp3”

3、http版本迭代

  • http/0.9,只支持传输html格式的数据。
  • http/1.0,扩展支持cache、MIME等,每个tcp连接只能发送一个请求,数据发送完毕就关闭。效率低,每个请求都要三次握手建立连接。
  • 1997年,http/1.1:http/1.1引入持久连接,tcp连接默认不关闭(不用声明Connection:keep-alive),可以被多个请求复用。引入管道极值,即在同一个TCP连接里,客户端可以同时发送多个请求,进一步改进了HTTP协议的效率。

同一个连接,大多数浏览器允许同时连接6个持久连接
同一个连接多个请求,数据通信按次序进行,因此有队头堵塞(head-of-line blocking)问题。

  • 2015年,http/2.0:http/2.0之前的头部信息是ASCII码,可以直接读懂,http2.0头部和数据部分都是二进制。http/2.0复用TCP连接,多个请求时不用按顺序,优化了队友堵塞问题。同时运行头部压缩,允许服务端未经请求主动向客户端推送资源。

4、http工作机制
一次http事务,就是请求<-->响应

PS:一个网页由多个资源构成,打开一个页面,会有多个资源展示出来,但是每个资源都要单独请求。因此,一个“Web 页面”通常并不是单个资源,而是一组资源的集合。F12查看一次请求的资源集合。这些资源分为静态资源和动态资源,动态资源是先在服务端执行相应的程序,返回的内容是程序执行的结果。
静态文件:无需服务端做出额外处理。例如后缀.jpg, .html, .txt, .js, .css, .mp3, .avi文件。
动态文件:服务端执行程序,返回执行的结果,例如后缀.asp, .php, .jsp文件。 试想,一个淘宝网页,每一个资源都是动态文件的化,服务器压力该有多大,所以优化减少动态文件是提高http服务性能的方向之一。

  • 提高HTTP连接性能

并行连接:通过多条TCP连接发起并发的HTTP请求
持久连接:keep-alive,长连接,重用TCP连接,以消除连接和关闭的时延,以事务个数和时间来决定是否关闭连接
管道化连接:通过共享TCP连接发起并发的HTTP请求
复用的连接:交替传送请求和响应报文

5、URI:Uniform Resource Identifier 统一资源标识,分为URL和URN。

  • URN: Uniform Resource Naming,统一资源命名。URN只是资源的名字,不代表互联网上名叫这个资源的位置。

示例: P2P下载使用的磁力链接是URN的一种实现,P2P原理就是人人为我,我为人人,我在下载资源的同时,也在上传这个资源,所以URN所代表的资源可能在互联网任何位置。

  • URL: Uniform Resource Locator,统一资源定位符,用于描述某服务器某特定资源位置
    URN如同一个人的名称,而URL代表一个人的住址。换言之,URN定义某事物的身份,而URL提供查找该事物的方法。URN仅用于命名,而不指定地址。互联网上使用URL最多,URN太过占用带宽,应用范围少。

  • URL组成<scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag>

scheme: 方案,访问服务器以获取资源时要使用哪种协议
user: 用户,某些方案访问资源时需要的用户名
password: 密码,用户对应的密码,中间用:分隔
Host: 主机,资源宿主服务器的主机名或IP地址
port: 端口,资源宿主服务器正在监听的端口号,很多方案有默认端口号,如果scheme是http8080端口,默认可以不写。
path: 路径,服务器资源的本地名,由一个/将其与前面的URL组件分隔
params: 参数,指定输入的参数,参数为名/值对,多个参数,用;分隔
query: 查询,传递参数给程序,如数据库,用?分隔,多个查询用&分隔
frag: 片段,一小片或一部分资源的名字,此组件在客户端使用,用#分隔

示例:

1、访问京东-毛巾浴巾页面的URL为: https://coll.jd.com/list.html?sub=39228 ,其中?sub=39228就是query字段,代表从数据库查询这个分类。
2、访问apache网站http-server的指令参数说明URL:https://httpd.apache.org/docs/2.4/mod/quickreference.html#M ,由于指令按字母序从A-Z,都在一个大的页面,被分片为很多个小页面,其中#M就代表一个分片。

6、网站访问量

  • IP(独立IP):即Internet Protocol,指独立IP数。一天内来自相同客户机IP地址只计算一次,记录远程客户机IP地址的计算机访问网站的次数,是衡量网站流量的重要指标
  • PV(访问量): 即Page View, 页面浏览量或点击量,用户每次刷新即被计算一次,PV反映的是浏览某网站的页面数,PV与来访者的数量成正比,PV并不是页面的来访者数量,而是网站被访问的页面数量
  • UV(独立访客):即Unique Visitor,访问网站的一台电脑为一个访客。一天内相同的客户端只被计算一次。可以理解成访问某网站的电脑的数量。网站判断来访电脑的身份是通过来访电脑的cookies实现的。如果更换了IP后但不清除cookies,再访问相同网站,该网站的统计中UV数是不变的

PS:http://www.alexa.cn/,网站排名查询

4.2.3 web服务请求过程

web服务请求处理步骤

web服务请求处理步骤

1、建立连接:接收或拒绝连接请求

2、接收请求:接收客户端请求报文中对某资源的一次请求的过程。
请求响应的Web访问响应模型(Web I/O)
web访问响应模型

web访问响应模型

  • 单进程I/O模型:启动一个进程处理用户请求,而且一次只处理一个,多个请求被串行响应。如下图(a)所示。

一个进程循环依次处理单个http连接请求。

  • 多进程I/O模型:并行启动多个进程,每个进程响应一个连接请求
  • 复用I/O结构:启动一个进程,同时响应N个连接请求

实现方法:多线程模型和事件驱动
多线程模型:一个进程生成N个线程,每线程响应一个连接请求
事件驱动:一个进程处理N个请求
如下图(c)所示,一个连接复用器同时接受多个连接请求。把每一个连接丢到一个线程中处理。

  • 复用的多进程I/O模型:启动M个进程,每个进程响应N个连接请求,同时接收M*N个请求

复用I/O结构的加强版!

curl -I +域名,查看互联网上的网站的响应报文首部,包括使用的web服务类型等信息。

3、处理请求:服务器对请求报文进行解析,并获取请求的资源及请求方法等相关信息,根据方法,资源,首部和可选的主体部分对请求进行处理。

HTTP常用请求方式:Method、GET、POST、HEAD、PUT、DELETE、TRACE、OPTIONS
示例:访问百度的请求头:

请求元数据

请求元数据

4、访问资源
服务器获取请求报文中请求的资源web服务器,即存放了web资源的服务器,负责向请求者提供对方请求的静态资源,或动态运行后生成的资源

资源放置于本地文件系统特定的路径,例如访问www.changan.com.cn,网页上的图片资源存放路径:https://www.changan.com.cn/js/0.js,即/js/
web服务器静态资源,可以配置路径映射,生成伪静态路径。

PS:盗链: 例如,一个网站的html资源中的一张图片,实际上引用了其他网站的图片资源。盗链行为相当于用别人的web服务器资源为我服务,所以很吃亏,有很多反盗链的技术。

5、构建响应报文
一旦Web服务器识别出了资源,就执行请求方法中描述的动作,并返回响应报文。响应报文中包含有响应状态码、响应首部,如果生成了响应主体的话,还包括响应主体
响应头部信息

响应头部信息

  1. 响应实体:如果事务处理产生了响应主体,就将内容放在响应报文中回送过去。响应报文中通常包括:

描述了响应主体MIME类型的Content-Type首部
描述了响应主体长度的Content-Length
实际报文的主体内容

  1. URL重定向:web服务构建的响应并非客户端请求的资源,而是资源另外一个访问路径

比如一些网站域名发生了变化,但是通过老的域名仍然可以访问,老域名重定向到新的域名,比如访问京东的老域名,自动重定向到新的域名:http://www.360buy.com

  1. MIME类型:Web服务器要负责确定响应主体的MIME类型。一般根据后缀就可以区分。

6、发送响应报文
Web服务器通过连接发送数据时也会面临与接收数据一样的问题。服务器可能有很多条到各个客户端的连接,有些是空闲的,有些在向服务器发送数据,还有一些在向客户端回送响应数据。
服务器要记录连接的状态,还要特别注意对持久连接的处理。对非持久连接而言,服务器应该在发送了整条报文之后,关闭自己这一端的连接。
对持久连接来说,连接可能仍保持打开状态,在这种情况下,服务器要正确地计算Content-Length首部,不然客户端就无法知道响应什么时候结束了。

7、记录日志
最后,当事务结束时,Web服务器会在日志文件中添加一个条目,来描述已执行的事务。

日志记录非常重要,可以根据日志,分析用户行为,电商网站根据日志统计用户喜欢什么样的商品,用户地域等等。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个两个四个三

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值