linux高级编程(网络)(www,http,URL)

数据的封包和拆包

封包:

  1. 应用层数据(例如HTTP请求)被传递给传输层。
  2. 传输层(TCP)在数据前添加TCP头部(包含端口号、序列号等)。
  3. 网络层(IP)在TCP段前添加IP头部(包含源IP地址、目的IP地址等)。
  4. 链路层在IP包前添加链路层头部和尾部(例如以太网帧头)。

拆包:

  1. 链路层从以太网帧中提取IP包。
  2. 网络层从IP包中提取TCP段。
  3. 传输层从TCP段中提取数据,
  4. 应用层使用数据。

--> 帧:

位于链路层(OSI七层模型),是链路层传递的基本单元(不一定最小)

其中包含:帧的长度,源MAC地址,目的MAC地址(MAC地址也称物理地址,硬件地址,全球唯一)其装的数据,以及各种校验位

其数据段最多能存放1500字节,最少要保证其一帧有64字节数据(也就是说数据段+其他段不够64字节时,会添加填充字节来时该帧大小达到64字节,填充字节不包含有效信息)

-->管道

用于IPC(进程间通信),最大大小可自定义,其最小大小为4k(称为1页,不管设置多小,系统会补全到至少1页,且大于1页时,会设置为1页的整数倍(n*4k))

-->套接字缓冲区

一般为4kb,与ubuntu中文件缓冲区一致,输入缓冲区为1kb

www(万维网)

    一个大型的,交互式的信息储藏空间,万维网利用网页之间的链接将不同网站的网页链接成一张逻辑上的信息网,从而用户可以方便的从internet上的一个站点去访问另一个站点 。其中站点由一个或多个处于不同地理位置的源服务器(数据的来源)托管。

URL:标识万维网文档

HTTP:应用层协议,用于实现链接

HTML:使用超链接,将标签与资源链接起来,显示给用户

统一资源定位器URL(uniform resource locator )

      统一资源定位符 URL 是用来表示从互联网上得到的资源位置和访问这些资源的方法,其实际上是资源的地址(“资源” 是指在互联网上可以被访问的任何对象,包括文件目录、文件、文档、图形、声音等,以及与互联网相连的任何形式的数据。)

URL的一般形式一般由以下四个部分组成:

<协议>://<主机>:<端口号>/<路径>

主机指的的是主机在因特网上的域名,端口号和路径可省略

URL最大的作用就是,表示用户的行为(例如按键,点击超链接),在编写程序时就是用URL来判断用户的行为,从而达到期望的操作。

使用http的URL:

     一般形式:http://<主机>:<端口号>/<路径>

     http的默认端口号为80,通常可省略(https:http的加密版本,默认端口号为443),如果省略其路径项,URL就指到了某个主页:

1.一个www服务器最高级别的页面

2.可以连接到与本组织相关的其他站点

清华大学主页:

http://www.tsinghua.edu.cn

路径指向的从属界面:

http://www.tsinghua.edu.cn/chn/yxsz/index.htm

超文本传输协议http

操作过程:

        HTTP是Web通信的基础,它定义了客户端和服务器之间如何请求和响应资源。

         HTTP 规定在 HTTP 客户与 HTTP 服务器之间的每次交互,都由一个 ASCII 码串构成的请求和一个类似的通用互联网扩充,即 “类 MIME(MIME-like)” 的响应组成。(如Content-Type: text/html; charset=UTF-8,这告诉浏览器响应的内容类型是HTML,并且应该使用UTF-8字符集,类型+填充值)HTTP 报文通常都使用 TCP 连接传送。(包含三次握手,4次挥手)

http访问目标过程:

(1)浏览器分析链接指向页面的URL。
(2)浏览器向DNS请求解析www.tsinghua.edu.cn 的IP地址。
(3)域名系统DNS解析出清华大学服务器的IP地址为166.111.4.100。
(4)浏览器与服务器建立TCP连接(在服务器端IP地址是166.111.4.100,端口是80)
(5)浏览器发出取文件命令:GET /chn/yxsz/index.htm。
(6)服务器www.tsinghua.edu.cn 给出响应,把文件index.htm 发送给浏览器。
(7)释放TCP连接。
(8)浏览器显示“清华大学院系设置”文件index.htm中的所有文本。

分析URL->尝试连接->取文件->释放连接->显示

HTTP本身是无连接的(不需要建立http的连接,实际上用的是tcp的连接)

HTTP协议是无状态的(服务器不会记录用户数据,每次访问的数据都与第一次相同)

http1.0

      首先,建立一个http链接需要2倍RTT(往返时间),也就是3次握手(最后一次握手发送http请求报文),加一次服务器返回数据,在http1.0中每请求一次文档,就要产生一次TCP连接,这样会大大增加服务器的负担

http1.1

     使用了持续连接来改善这个问题,所谓持续连接就是与服务器取得连接后的一段时间仍然在该线路上发送请求报文与数据。

-->流水线方式与非流水线方式

流水线方式:客户在收到前一个响应后才能发出下一个请求。这比非持续连接要用去两倍 RTT 的开销,节省了建立 TCP 连接所需的一个 RTT 时间。但是,在发送完一个对象后,其TCP连接就处于空闲状态,浪费了服务器资源

流水线方式:客户在收到 HTTP 的响应报文之前就能够接着发送新的请求报文。减少了TCP连接中的空闲时间,提高了效率

http报文结构

cea38ac7dab5472586256b6c00931cec.png

其中,请求报文的开始行应该以get开始,以版本号结束,如:HTTP/1.1

c8d9293ab57646c682a4281754b4d366.png请求报文示例:

bdea634174c64610ac859fdb87407f78.png3种常见的错误:

fdd7630b19534fee83d4bc460594db26.png

响应报文结构:
HTTP/1.1 200 OK\r\n            //状态行
Date: Wed, 17 Jul 2024 06:18:27 GMT\r\n //时间(可以没有)
Content-Type: text/html;charset=utf-8\r\n (发送html文件,编码格式为UTF-8)
Server: Firefox/113.0\r\n  //ngnix,服务器信息(可以加类似版本号的信息)
Content-Length: 1234\r\n            //文件的大小,单位为byte
Connection: closed\r\n\r\n            //短链接

请求报文结构:

GET /index.html HTTP/1.1 //请求行,指定了请求方法和http版本
Host: www.example.com  //服务器域名
Upgrade-Insecure-Requests: 1   //这个请求头告诉服务器,客户端希望将所有加载的资源(如图片、脚本等)从HTTP升级到HTTPS,以增加安全性。
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64)  //这个请求头提供了有关客户端软件的信息,例如浏览器类型和版本,以及操作系统的信息。
Accept:image/avif,image/webp,  //这个请求头告诉服务器,客户端接受哪些类型的响应,这里是图片。
Accept-Encoding: gzip, deflate, br  //这个请求头告诉服务器,客户端支持的响应内容编码方式。这里表示客户端可以处理gzip、deflate和br(Brotli)编码的内容。
Accept-Language: en-US,en;q=0.9  //这个请求头指定了客户端首选的响应语言,这里是英语(美国)和任何英语版本
Connection: keep-alive  // 这个请求头告诉服务器,客户端希望连接方式为常连接,以便可以发送和接收多个请求,而无需在每次请求后关闭和重新建立连接。

  • 25
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值