Python中的二进制数据处理：`struct` 与 `cffi` 的比较

橘色的喵

已于 2024-08-25 21:46:08 修改

阅读量424

点赞数 9

于 2024-08-25 20:36:08 首次发布

本文链接：https://blog.csdn.net/stallion5632/article/details/141534442

版权

文章目录

0. 引言

Python通过 struct 模块和 cffi 库提供了两种方法来处理二进制数据。本文将做个简单的技术对比。

1. 技术背景与核心特性

1.1 `struct` 模块

struct 模块主要用于从Python值（如数字、字符串）到打包的字节对象的转换.它提供了一种方便的方式来解析存储在文件中或通过网络接收的二进制数据。

核心特性：

简单易用：通过格式字符串实现数据的打包和解包。
直接性：提供了一种直观的方式来布局数据的内存格式。

1.2 `cffi` 库

cffi 提供了一种能力，允许Python代码调用C代码。它是为需要直接与C库交互的复杂应用而设计。与Python的其他外部函数接口工具如 ctypes 相比，cffi 提供了更灵活和高效的方式来接入C语言代码，尤其是在处理底层系统调用或需要高性能交互的场合。

核心特性：

灵活性和强大：可以处理指针、结构体及回调函数等复杂类型。
性能优化：直接调用C代码，减少了运行时的开销。
易于集成和扩展：允许用户更容易地编写出既安全又高效的代码，接近C语言的运行性能。

2. 性能比较

在选择数据处理策略时，性能是一个关键因素。为了公正比较 struct 和 cffi 的性能，我们设计了两组基准测试。第一组测试中 struct 占据优势，主要执行简单的数据解包和轻量级处理；第二组测试则展示了 cffi 在处理更复杂的数据操作时的性能优势。

2.1 性能测试代码一：`struct` 占优场景

为确保公平比较，我们调整了C函数的工作量，以模拟与 struct 解包操作相似的负载。例如，我们设计了一个C函数来模拟对数组的简单求和操作，而非仅执行基本的加法。

C++ 代码调整

以下C++代码定义了一个函数，该函数模拟了与 struct 解包类似的数组处理操作：

extern "C" {
    void process_data(const int* data, int size) {
        volatile int sum = 0;  // 使用 volatile 防止编译器优化
        for (int i = 0; i < size; ++i) {
            sum += data[i];
        }
    }
}

编译指令如下，包含优化标志以提高性能：

g++ -shared -fPIC -o libprocess.so process_data.cpp -O2

Python 测试代码

Python代码使用 struct 和 cffi 分别进行数据处理：

import struct
import time
from cffi import FFI

ffi = FFI()
ffi.cdef("void process_data(const int *data, int size);")
C = ffi.dlopen("./libprocess.so")

def test_struct():
    fmt = '10I'
    data = struct.pack(fmt, *(range(10)))
    start_time = time.time()
    for _ in range(1000000):
        result = struct.unpack(fmt, data)
        sum(result)  # 模拟处理逻辑
    print("struct unpack:", time.time() - start_time)

def test_cffi():
    int_array = ffi.new("int[]", list(range(10)))
    start_time = time.time()
    for _ in range(1000000):
        C.process_data(int_array, 10)
    print("cffi call:", time.time() - start_time)

test_struct()
test_cffi()

测试结果显示 struct 在轻量级操作中表现更佳：

struct unpack: 0.282 seconds
cffi call: 0.328 seconds

2.2 性能测试代码二：`cffi` 占优场景

为了进一步测试，我们增加了每次函数调用的计算负载，使性能差异更加明显。

调整后的C++代码

这一段C++代码处理了100个整数的排序：

#include <algorithm>  // for std::sort

extern "C" {
    void sort_data(int* data, int size) {
        std::sort(data, data + size);
    }
}

编译指令同样采用优化设置：

g++ -shared -fPIC -o libsort.so sort_data.cpp -O2

Python 测试代码调整

在Python中，增加了数据量并适当调整了测试迭代次数：

import struct
import time
import random
from cffi import FFI

ffi = FFI()
ffi.cdef("void sort_data(int *data, int size);")
C = ffi.dlopen("./libsort.so")

def test_struct():
    fmt = '100I'
    data = struct.pack(fmt, *(random.randint(0, 1000) for _ in range(100)))
    start_time = time.time()
    for _ in range(100000):
        unpacked_data = struct.unpack(fmt, data)
        sorted_data = sorted(unpacked_data)
    print("struct unpack and sort:", time.time() - start_time)

def test_cffi():
    int_array = ffi.new("int[]", [random.randint(0, 1000) for _ in range(100)])
    start_time = time.time()
    for _ in range(100000):
        C.sort_data(int_array, 100)
    print("cffi sort call:", time.time() - start_time)

test_struct()
test_cffi()

执行结果显示 cffi 在高负载下显著优于 struct：

struct unpack and sort: 0.629 seconds
cffi sort call: 0.094 seconds

2.3 性能测试结果总结

这些测试结果揭示了 struct 在处理轻量级数据操作中的效率，而 cffi 则在复杂的数据处理任务中显示出显著的性能优势。这种性能差异主要由于 cffi 直接与编译的C代码交互，减少了解释执行的开销。因此，在选择数据处理策略时，应根据任务的计算密集程度和数据处理的复杂性来选择合适的工具。