获取目录及其子目录下所有文件的MD5值

文章介绍了如何利用Python的os模块遍历目录以及hashlib模块计算文件的MD5值。通过os.walk获取目录下所有文件和子目录,然后使用hashlib.md5()计算每个文件的哈希值,以4096字节为单位读取文件,最后输出文件名和对应的MD5值。
摘要由CSDN通过智能技术生成

获取某个目录及其子目录下所有文件的MD5值,主要分为2个步骤:

  1. 获取目录下所有的文件名称(全路径)
  2. 计算每一个文件的MD5值

获取目录下所有的文件名称

  • 需要用到 os 模块
    os.walk 是一个 Python 中用于遍历目录树的方法
    它可以递归地遍历指定目录及其子目录中的所有文件和文件夹。

os.walk 方法的基本语法如下:

for root, dirs, files in os.walk(directory):
    # root 当前遍历的目录路径
    # dirs 当前目录下的子目录列表
    # files 当前目录下的文件列表
    # 在这里处理文件或目录

在每次迭代中,os.walk 返回三个值:root、dirs 和 files。其中:

root 是当前遍历的目录路径
dirs 是一个字符串列表,包含了当前目录下的子目录名
files 是一个字符串列表,包含了当前目录下的文件名

计算每一个文件的MD5值

  • 需要用到 hashlib 模块
    hashlib 是 Python 中的一个内置模块,用于提供常见的哈希函数功能
    它通过提供一组接口来支持各种哈希算法,如 MD5、SHA1、SHA256 等

hashlib.md5() 创建了 MD5 对象
update() 方法向对象添加要计算哈希值的数据
hexdigest() 方法获取哈希值的十六进制表示

具体的代码实现:

# -*- coding: utf-8 -*-
import hashlib
import os

    
def get_files(path):
    """
    遍历指定路径下的所有文件
    :param path: 指定路径
    :return: 文件全名称(含路径)列表
    """
    files = []
    for root, directories, filenames in os.walk(path):
    	# 将所有的文件逐一加到列表中
        for filename in filenames:
            files.append(os.path.join(root, filename))
    return files

def get_file_md5(file_name):
    """
    计算文件的md5
    :param file_name: 入参为文件路径
    :return: 返回MD5 值的十六进制字符串
    """
    m = hashlib.md5()  # 创建md5对象
    with open(file_name, 'rb') as fobj:
       # 对文件进行分块读取,以避免一次性将整个文件读入内存,每次读取 4096 字节
        for chunk in iter(lambda: file.read(4096), b''):
            m.update(chunk)  # 更新md5对象

    return m.hexdigest()  # 返回md5对象
    
# 目录路径,如C:\Users\Desktop'
dir_path = r'...'
# 获取文件列表
files = get_files(dir_path)
# 计算每一个文件的MD5值
for file in files:
    md5_info = get_file_md5(file)
    #  输出文件的上一级目录 和 文件名称
    print(file.split('\\')[-2] + '\\' +file.split('\\')[-1])
    # 输出文件的MD5值,并换行
    print(md5_info,'\n')
好的,我来为您解答。针对您的问题,您可以按照以下步骤来实现: 步骤1:导入所需模块 您需要导入以下模块:os、hashlib、asyncio、pathlib、typing。其中,os、hashlib、pathlib 是 Python 自带的模块,无需额外安装;asyncio 是 Python3.4 以后版本新增的协程模块,需要安装;typing 是 Python3.5 以后版本新增的类型注解模块,也需要安装。 步骤2:定义计算 md5 的函数 您需要定义一个函数,用于计算文件md5 。这个函数的主要作用是:读取文件内容,并计算其 md5 。函数代码如下: ```python async def compute_md5(file_path: str): md5 = hashlib.md5() with open(file_path, 'rb') as f: while True: data = f.read(1024) if not data: break md5.update(data) return md5.hexdigest() ``` 这里使用了协程 async/await 语法,将文件读取操作异步化,提高了程序的并发性能。 步骤3:定义遍历文件夹的函数 您需要定义一个函数,用于遍历文件夹及其子文件夹,并将每个文件的路径保存到一个列表中。函数代码如下: ```python async def get_file_list(folder_path: str, file_list: typing.List[str]): for item in os.listdir(folder_path): item_path = os.path.join(folder_path, item) try: if os.path.isfile(item_path): file_list.append(item_path) elif os.path.isdir(item_path): await get_file_list(item_path, file_list) except PermissionError: pass ``` 这里同样使用了协程 async/await 语法,将递归遍历文件夹的操作异步化,提高了程序的并发性能。同时,由于可能会遇到权限不够的情况,我们需要使用 try-except 语句进行异常处理。 步骤4:定义主函数 在主函数中,您需要获取用户输入的文件夹路径,然后调用上述两个函数,遍历文件夹,并计算每个文件md5 。函数代码如下: ```python async def main(): # 获取用户输入的文件夹路径 folder_path = input("请输入文件夹路径:") # 定义一个列表,用于保存所有文件的路径 file_list = [] # 遍历文件夹,并将每个文件的路径保存到列表中 await get_file_list(folder_path, file_list) # 定义一个任务列表,用于保存所有异步任务 tasks = [] # 遍历文件列表,为每个文件创建一个异步任务,并添加到任务列表中 for file_path in file_list: tasks.append(asyncio.create_task(compute_md5(file_path))) # 等待所有异步任务执行完成,并输出每个文件md5 for i, task in enumerate(asyncio.as_completed(tasks)): md5 = await task print(f"文件{i+1}的md5为:{md5}") ``` 在这里,我们首先定义了一个空列表 file_list,用于保存所有文件的路径。然后,调用 get_file_list 函数,遍历文件夹,并将每个文件的路径保存到 file_list 中。接下来,我们定义了一个任务列表 tasks,用于保存所有异步任务。遍历 file_list,为每个文件创建一个异步任务,并添加到 tasks 列表中。最后,我们使用 asyncio.as_completed 函数等待所有异步任务完成,并输出每个文件md5 。 步骤5:运行程序 现在,您可以直接运行程序,按照提示输入文件夹路径,即可计算文件夹中所有文件md5 了。在计算过程中,如果遇到权限不够的文件文件夹,程序会自动跳过,继续计算其他文件md5
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值