二进制文件比较

qq^^614136809

于 2024-05-07 16:04:32 发布

阅读量426

点赞数 3

文章标签： ubuntu linux 运维

本文链接：https://blog.csdn.net/D0126_/article/details/138535518

版权

我们需要比较两个文件中的数据，并返回差异所在的偏移量列表。对于文本文件，这种方法非常有效。但是，在比较二进制数据文件（可执行文件等）时，存在一些问题。虽然两个字节在十六进制编辑器中明显不同，但程序认为它们是相同的。这可能是导致问题的原因之一。
在这里插入图片描述

2、解决方案

为了克服这个问题，我们需要使用更合适的比较方法来处理二进制数据和 ASCII 文本。一种可能的解决方案是使用 Python 中的 struct 模块。struct 模块提供了将二进制数据打包和解包为 Python 值的函数。我们可以使用该模块来比较二进制数据的字节，确保它们的二进制值相同。

import struct
import os

def compare_files(file1, file2):
    """
    比较两个文件的二进制数据，并返回差异所在的偏移量列表。

    Args:
        file1 (str): 第一个文件的路径。
        file2 (str): 第二个文件的路径。

    Returns:
        list: 差异所在的偏移量列表。
    """

    # 获取两个文件的字节大小
    file1_size = os.path.getsize(file1)
    file2_size = os.path.getsize(file2)

    # 计算两个文件的字节大小差
    offset_diff = file1_size - file2_size

    # 计算结束位置
    end = file1_size  # 如果两个文件大小相同，则结束位置为第一个文件的大小
    if offset_diff > 0:
        # 如果第二个文件较小，则结束位置为第二个文件的大小
        end = file2_size

    # 打开两个文件并开始比较字节
    with open(file1, 'rb') as f1, open(file2, 'rb') as f2:
        data = []  # 存储差异所在的偏移量
        looking = False  # 是否正在寻找差异

        # 循环比较字节，直到达到结束位置
        offset = 0
        while offset < end:
            # 从两个文件中读取指定数量的字节
            b1 = f1.read(512)
            b2 = f2.read(512)

            # 比较两个字节
            if b1 != b2:
                # 如果字节不同，则保存差异所在的偏移量
                if not looking:
                    looking = True
                    diff_offset = offset
                offset += 1  # 继续读取下一个字节，直到找到相同的字节

            else:
                # 如果字节相同，则停止寻找差异
                if looking:
                    looking = False
                    data.append([diff_offset, offset - 2])  # 保存差异所在的偏移量范围
                    offset += 1  # 跳过相同的部分

    return data

# 测试比较功能
file1 = 'file1.exe'
file2 = 'file2.exe'
differences = compare_files(file1, file2)
print("差异所在的偏移量列表：", differences)

这段代码使用 struct 模块来比较二进制数据，并返回差异所在的偏移量列表。它首先获取两个文件的字节大小，然后计算两个文件的字节大小差，以此来确定结束位置。接下来，代码打开两个文件并开始比较字节，直到达到结束位置。如果两个字节不同，则保存差异所在的偏移量，如果两个字节相同，则停止寻找差异。最终，代码返回差异所在的偏移量列表。

这种方法可以解决在比较二进制数据文件时遇到的问题，确保比较结果准确。