使用哈希函数删除哈希值相同的文件

chen_znn

已于 2024-02-21 11:00:55 修改

阅读量1.4k

点赞数 13

分类专栏： python 文章标签：哈希算法算法

于 2024-02-21 10:58:43 首次发布

本文链接：https://blog.csdn.net/qq_38964360/article/details/136205907

版权

python 专栏收录该内容

40 篇文章

订阅专栏

本文详细介绍了哈希函数的概念，包括其作用（数据唯一性、完整性及快速访问），以及如何通过计算和比较哈希值来检测重复文件。提供了Python示例代码展示了如何使用MD5、SHA-1和SHA-256等算法计算文件哈希值并删除重复文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

哈希函数及哈希值的定义

哈希函数是一种将任意长度的输入数据映射为固定长度的输出数据的函数。它通过对输入数据执行一系列复杂的数学运算，将数据转换为固定长度的唯一标识，这个唯一标识就是哈希值。

哈希函数的作用

数据唯一性: 对于不同的输入数据，哈希函数应该生成不同的哈希值，以便能够区分不同的数据
数据完整性: 任意微小的数据变化都应该导致不同的哈希值，这使得哈希函数被广泛用于数据完整性校验
快速访问: 哈希函数应该能够快速计算出哈希值，使其适用于快速数据检索和比较

计算哈希值

数据分块：首先，输入数据被分成固定大小的数据块。这有助于处理大量数据，并使得哈希函数能够逐步处理数据而不必一次性加载所有数据
初始变量设定：哈希函数会初始化一些内部变量或状态，这些变量在整个哈希计算过程中会被更新
数据转换：每个数据块经过一系列复杂的数学运算，如位运算、位移、逻辑运算、加法、乘法等，以及特定的哈希算法（如MD5、SHA-1、SHA-256等）中定义的算法操作。这些运算会混淆和转换数据块的内容
迭代处理：对于大文件或大量数据，哈希函数通常会迭代处理每个数据块，逐步更新内部状态和哈希值
压缩：在处理完所有数据块后，哈希函数会执行最终的压缩操作，将内部状态转换为固定长度的输出，即哈希值
生成哈希值：最终生成的哈希值是一个固定长度的二进制串或十六进制串，用于唯一标识输入数据。即使输入数据的细微变化，也会导致生成的哈希值完全不同，这就是哈希函数的唯一性

删除哈希值相同的文件

计算文件的哈希值：使用哈希函数（如MD5、SHA-1、SHA-256等）计算每个文件的哈希值
识别重复的哈希值：将计算出的哈希值存储在一个数据结构（如字典）中，检查是否有重复的哈希值
删除重复文件：对于具有相同哈希值的文件，保留其中一个，删除其他重复文件

代码示例

以下是python示例代码，用于删除具有相同哈希值的文件：

import os
import hashlib


## 适用于大文件
def file_hash_1(file_path):
    hasher = hashlib.md5()
    with open(file_path, 'rb') as f:
        for chunk in iter(lambda: f.read(4096), b""):
            hasher.update(chunk)
    return hasher.hexdigest()

## 适用于小文件
def file_hash_2(filepath):
    with open(filepath, 'rb') as f:
        return hashlib.md5(f.read()).hexdigest()

def find_and_remove_duplicate_files(directory):
    hash_dict = {}
    
    for root, _, files in os.walk(directory):
        for file in files:
            file_path = os.path.join(root, file)
            file_hash_value = file_hash_1(file_path)
            # file_hash_value = file_hash_2(file_path)
            
            if file_hash_value in hash_dict:
                os.remove(file_path)
                print(f"Deleted duplicate file: {file_path}")
            else:
                hash_dict[file_hash_value] = file_path

directory_to_search = "path/to/directory"
find_and_remove_duplicate_files(directory_to_search)

其中，

file_hash_1函数使用了迭代方式读取文件内容，并在每次读取的数据块上更新哈希值。它遍历文件的内容块（每次读取4096字节），并更新哈希对象，直到整个文件都被处理完毕。这种方法适用于处理大文件，因为它可以逐步读取文件内容而不会一次性加载整个文件到内存中。

file_hash_2函数直接将整个文件内容读入内存，然后计算其哈希值。它一次性将整个文件读取到内存中，然后计算哈希值。这种方法适用于处理较小的文件，因为它会一次性加载整个文件到内存中，可能会导致内存占用较高。