Python读取标准HTTP协议,彻底解决粘包问题

前言

最近在项目中需要接收大量带HTTP标准协议格式的数据包,在实际开发中遇到了粘包和半包问题,为了彻底的解决此问题,特此附上解决方案和可用方案代码。

一、什么是粘包

粘包问题是指当发送两条消息时,例如发送 1234 和 5678两条数据,但另一端接收到的却是 12345,像这种一次性读取了两条数据的情况就叫做粘包。正常情况下应该是读取成两条数据。产生原因如下:

  1. 发送方每次写入数据 < 套接字(Socket)缓冲区大小。
  2. 接收方读取套接字(Socket)缓冲区数据不够及时。

二、什么是半包

半包问题是指当发送的消息是 12345时,另一端却接收到的是 123 和 45 两条信息,像这种情况就叫做半包。产生原因如下:

  1. 发送方每次写入数据 > 套接字(Socket)缓冲区大小。
  2. 发送的数据大于协议的 MTU (Maximum Transmission Unit,最大传输单元),因此必须拆包。

三、什么是缓冲区

缓冲区又称为缓存,它是内存空间的一部分。也就是说,在内存空间中预留了一定的存储空间,这些存储空间用来缓冲输入或输出的数据,这部分预留的空间就叫做缓冲区。

缓冲区的优势以文件流的写入为例,如果我们不使用缓冲区,那么每次写操作 CPU 都会和低速存储设备也就是磁盘进行交互,那么整个写入文件的速度就会受制于低速的存储设备(磁盘)。但如果使用缓冲区的话,每次写操作会先将数据保存在高速缓冲区内存上,当缓冲区的数据到达某个阈值之后,再将文件一次性写入到磁盘上。因为内存的写入速度远远大于磁盘的写入速度,所以当有了缓冲区之后,文件的写入速度就被大大提升了。

四、HTTP标准格式例子

POST /API/V1/Controller/HeartInfo HTTP/1.1
Host: 192.168.0.100:8848
Content-Type: application/json
Content-Length: 180
Connection: keep-alive

{
"resId": "a75a04f5-1a52-4a9d-8c0a-b7a23140f6e2",
"time": "2021-05-26 14:21:45",
"nextTime": "2021-05-26 14:22:15",
"deviceID": "21045521532085612",
"deviceType": 1
}

五、代码分部实现和说明

1.代码分步实现

①从给定套接字读取HTTP Response。将该Response用tuple (header, body)接收两个字节的值。

@classmethod
def read_until(self, sock, condition, length_start=0, chunk_size=4096):
    '''
    从给定套接字读取,直到条件返回True。返回从套接字读取的字节数组。
    条件是有一个有两个参数的函数,condition(length, data),其中length为读取的字节总数
    data是最近读取的数据块。基于这两个值,条件必须返回True时才停止并返回到目前为止所读取的数据。
    '''
    data = bytes()
    chunk = bytes()
    length = length_start
    try:
        while not condition(length, chunk):
            chunk = sock.recv(chunk_size)
            if not chunk:
                break
            else:
                data += chunk
                length += len(chunk)
    except socket.timeout:
        pass
    return data

②将body和header分开

@classmethod
def separate_header_and_body(self, data):
    '''
    从给定的字节数组返回一个tuple (header, body)。
    如果给定的数组不包含头结束信息,那么假设它都是头文件。
    '''
    try:
        index = data.index(self.http_header_delimiter)
    except:
        return (data, bytes())
    else:
        index += len(self.http_header_delimiter)
        return (data[:index], data[index:])

③从header中获取内容长度

@classmethod
def get_content_length(self, header):
    '''
    如果在给定的字节序列中找到Content-Length,则返回由Content-Length HTTP字段给出的整数值。
    否则返回0。
    '''
    for line in header.split(b'\r\n'):
        if self.content_length_field in line:
            return int(line[len(self.content_length_field):])
    return 0

④读取body长度直到结束

self.body += self.read_until(sock, self.end_of_content, len(self.body))

2.解析处理类代码

import socket


class HTTPResourceParse:
    http_header_delimiter = b'\r\n\r\n'
    content_length_field = b'Content-Length:'

    @classmethod
    def read_until(self, sock, condition, length_start=0, chunk_size=4096):
        '''
        从给定套接字读取,直到条件返回True。返回从套接字读取的字节数组。
        条件是有一个有两个参数的函数,condition(length, data),其中length为读取的字节总数
        data是最近读取的数据块。
        基于这两个值,条件必须返回True时才停止并返回到目前为止所读取的数据。
        '''
        data = bytes()
        chunk = bytes()
        length = length_start
        try:
            while not condition(length, chunk):
                chunk = sock.recv(chunk_size)
                if not chunk:
                    break
                else:
                    data += chunk
                    length += len(chunk)
        except socket.timeout:
            pass
        return data

    @classmethod
    def separate_header_and_body(self, data):
        '''
        从给定的字节数组返回一个tuple (header, body)。
        如果给定的数组不包含头结束信息,那么假设它都是头文件。
        '''
        try:
            index = data.index(self.http_header_delimiter)
        except:
            return (data, bytes())
        else:
            index += len(self.http_header_delimiter)
            return (data[:index], data[index:])

    @classmethod
    def get_content_length(self, header):
        '''
        如果在给定的字节序列中找到Content-Length,则返回由Content-Length 
        HTTP字段给出的整数值。否则返回0。
        '''
        for line in header.split(b'\r\n'):
            if self.content_length_field in line:
                return int(line[len(self.content_length_field):])
        return 0

    def __init__(self):
        self.header = bytes()
        self.content_length = 0
        self.body = bytes()

    def end_of_header(self, length, data):
        '''
        如果data包含报头结束标记,则返回true。
        '''
        return b'\r\n\r\n' in data

    def end_of_content(self, length, data):
        '''
        如果length不满足content_length则返回true。
        '''
        return self.content_length <= length

    def recv(self, sock):
        '''
        从给定套接字读取HTTP Response。将该Response用tuple (header, body)接收两个字节的值。
        '''
        # 读取到header的末尾
        self.data = self.read_until(sock, self.end_of_header)

        # 将body和header分开
        self.header, self.body = self.separate_header_and_body(self.data)

        # 从header中获取内容长度
        self.content_length = self.get_content_length(self.header)

        # 读取body长度直到结束
        self.body += self.read_until(sock, self.end_of_content, len(self.body))

        return (self.header, self.body)

3.Socket服务类代码

import socket
import threading
from HTTPResourceParse import HTTPResourceParse

connections = []
sock = None


def accept_client():
    """
    receive connection
    """
    while True:
        client, address = sock.accept()
        connections.append(client)
        thread = threading.Thread(target=message_handle, args=(client, address))
        thread.setDaemon(True)
        thread.start()


def message_handle(client, address):
    """
    handle message
    """
    try:
        while 1:
            try:
                header, body = HTTPResourceParse().recv(client)
                if len(header) > 0 and len(body) > 0:
                    data_header = header.decode('utf-8')
                    data_body = body.decode('utf-8')
                    print(data_header, data_body)
                    full_data = header.decode('utf-8') + body.decode('utf-8')
                    print(full_data)
            except Exception as e:
                print(e)
    except Exception as e:
        print(e)


def start_connect():
    global sock
    # 将此主机地址更改为你的自定义IP
    host = "192.168.0.100"  
    # 将此端口更改为你的自定义端口
    port = 8848  
    print("server host: " + host)
    # create a socket service
    sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    sock.bind((host, port))
    sock.listen(32)
    thread = threading.Thread(target=accept_client)
    thread.start()

总结

本文介绍了TCP 粘包和半包问题,粘包是指读取到了两条信息,正常情况下消息应该是一条一条读取的,而半包问题是指读取了一半信息。导致粘包和半包的原因是 TCP 的传输是以流的形式进行的,而流数据是没有明确的开始和结尾标识的,因此就导致了此问题。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值