什么是md5码?如何使用Python读取文件md5码去重操作?

如果对于文件有一定了解,比如网络传输,上传、下载文件的话,那么对于md5值一定不会陌生,这是一个文件的标示或者记录,每个文件有自身的md5值,如果对文件做了修改,那么其md5值是一定会改变,所以我们可以看到在下载系统文件的时候都会提示核对md5值,以确认下载的系统文件是否缺失或者修改!

8757bdd6e22643f9585c922528b37037.png

什么是md5码?

MD5(Message Digest Algorithm 5)是一种用于信息摘要算法的加密哈希函数。它将输入的任意长度的消息压缩成一串128位的哈希值,并且不同的输入一般会产生不同的哈希值。

md5码的应用领域

在计算机领域中,一般使用MD5算法来验证文件的完整性。

还有一种应用广泛的领域,那就是去重,早几年网络上传分享内容,比如优酷视频上传,只需要更改视频文件的md5码值,即能通过平台的重复内容初筛,这是比较简单的去重机制。

当然随着现在的短视频的飞速发展,视频去重早已经不会那么粗糙,在视频内容审核上,早已经相当智能,尤其是版权上,盗版视频,重复视频早已经能飞速审核,并结合平台内的数据过审。

Python 读取文件md5码去重操作应用

在计算机领域,md5是常见的加密算法之一,而Python自带了hashlib库,这个库包含用于安全哈希和消息摘要的许多方法。

  1. Python 读取文件md5码操作

import hashlib

def get_md5(filename):
    if (filename):
        print(filename)
        fp = open(filename, 'rb')
        contents = fp.read()
        fp.close()
        print(hashlib.md5(contents).hexdigest())
    else:
        print('file not exists')

if __name__=="__main__":
    filename=r'C:\Users\Administrator\Desktop/1.jpg'
    get_md5(filename)
    filename = r'C:\Users\Administrator\Desktop/1 - 副本.jpg'
    get_md5(filename)
  1. Python 修改文件md5码操作

import os, glob


def fileAppend(filename):
    myfile = open(filename,'a')
    myfile.write("####&&&&***")
    myfile.close

if __name__ == '__main__':
    dirname = r'D:\\videos\look' #需要修改的视频的文件目录
    allFile = glob.glob(dirname + os.sep + '*.mp4')

    for filename in allFile:
        fileAppend(filename)
        print(filename + 'is Changed.')
  1. Python 批量修改文件md5码操作

#https://blog.csdn.net/coastline_s/article/details/126514580
# 该.py文件与待修改文件置于同一文件夹下,操作运行即可实现功能。注意观察操作台反馈。
import os
import random
import sys
import hashlib


# 获取当前"文件"的绝对路径
path1 = __file__
# 获取当前"文件夹"的绝对路径
path = path1.replace('!!!_md5_change.py', '')
# 获取当前文件的文件名
# print(os.path.basename(__file__))


def md5_change(file_name):
    file = open(file_name, 'a')
    file.write('###&&&')
    file.close()


_FILE_SLIM = 100*1024*1024


def md5_search(filepath):
    calltimes = 0
    hmd5 = hashlib.md5()
    fp = open(filepath, "rb")
    f_size = os.stat(filepath).st_size
    if f_size > _FILE_SLIM:
        while (f_size > _FILE_SLIM):
            hmd5.update(fp.read(_FILE_SLIM))
            f_size /= _FILE_SLIM
            calltimes += 1
        if (f_size > 0) and (f_size <= _FILE_SLIM):
            hmd5.update(fp.read())
    else:
        hmd5.update(fp.read())
    return hmd5.hexdigest()


# 获取文件夹下所有的文件名称,以列表的形式呈现
file_name_list = os.listdir(path)

# 在列表元素个数范围内取随机数
random_x = random.randint(0, len(file_name_list))
# 获取到文件夹内某个随机文件的绝对路径(为结尾验证做准备)
file_name_path = path + file_name_list[random_x]

# 获取该随机选取到的文件的md5值(md5值修改之前)
md5 = md5_search(file_name_path)
print('"' + file_name_list[random_x] + '"原md5:  ' + md5)

# 开始遍历含有文件名的列表
for x in range(0, len(file_name_list)):
    filename = file_name_list[x]
    # 剔除目标文件之外的元素
    if filename == '!!!_md5_change.py':
        pass
    elif filename == '.DS_Store':
        pass
    else:
        # 对文件进行md5修改
        md5_change(filename)

# 获取该随机选取到的文件的md5值(md5值修改之后)
new_md5 = md5_search(file_name_path)
print('"' + file_name_list[random_x] + '"修改后的md5:  ' + new_md5)

# 对随机挑选到的文件进行修改前后比对验证
if md5 != new_md5:
    print('md5值的修改验证通过!')
else:
    print('"' + file_name_list[random_x] + '"' + '验证未通过,该文件夹下所有文件的md5值可能均修改失败')
  1. Python 读取文件md5码去重操作

#两层判断:
#1.先判断文件大小是否为相同,大小不同则不是重复文件,予以保留;
#2.文件大小相同再判断文件md5,md5相同,则是重复文件,予以删除。
#两层判断:
#1.先判断文件大小是否为相同,大小不同则不是重复文件,予以保留;
#2.文件大小相同再判断文件md5,md5相同,则是重复文件,予以删除。

from pathlib import Path
import hashlib


def getmd5(filename):
    # 接收文件路径,返回文件md5值
    with open(filename, 'rb') as f:
        data = f.read()
    file_md5 = hashlib.new("md5", data).hexdigest()
    return file_md5
    
def main():
    path = r"F:\FileRecv\删除文件测试"
    all_size = {}
    total_file = 0
    total_delete = 0

    # 获取路径内的所有文件名,默认是升序排列,相同文件将会保留日期时间最新的
    all_files = Path(path).glob('*.*')

    # 降序排列,相同文件将会保留文件名最短的(即日期时间最久的)
    all_files = sorted(all_files, reverse=True)

    # 遍历文件路径内的所有文件
    for file in all_files:
        # 获取文件所占字节大小,作为数据字典的键
        size = file.stat().st_size
        # name_and_md5列表用于存储文件绝对路径和md5值,作为数据字典的值
        name_and_md5 = [file, '']

        # 针对重复文件进行处理,生成字典存储相关信息
        # 字典all_size中key是size,value是name_and_md5列表
        # 针对相同size的文件,再调用getmd5函数,获取文件的md5值
        # 文件size不同(不在all_size.keys()中),则自动判断为不同的文件,予以保留
        if size in all_size.keys():
            # 调用getmd5函数,获取文件的md5值
            new_md5 = getmd5(file)
            if all_size[size][1] == '':
                all_size[size][1] = getmd5(all_size[size][0])
            # 判断md5值存在,即文件重复,则删除文件。md5值不存在,则把md5值加入列表中
            if new_md5 in all_size[size]:
                file.unlink()
                total_delete += 1
            else:
                all_size[size].append(new_md5)
        else:
            all_size[size] = name_and_md5
        total_file += 1

    print(f'文件总数:{total_file}')
    print(f'删除个数:{total_delete}')



if __name__=="__main__":
    main()

运行效果:

7cf580ec707634a630eff26f5da69df2.png

附所有代码demo打包获取

9ec1f88ce85f6f93cc72cfe918b2d043.png

链接: 

https://pan.baidu.com/s/1h9-l5vsc6dwLnpVGGiBllg?pwd=cyxr 

提取码: 

cyxr 

详解如何使用Python实现删除重复文件 https://www.jb51.net/article/264574.htm

利用python实现批量修改文件的md5值 https://blog.csdn.net/coastline_s/article/details/126514580

python批量修改视频md5值 https://zhuanlan.zhihu.com/p/298042816

python实现MD5进行文件去重的示例代码 https://www.jb51.net/article/217069.htm

·················END·················

你好,我是二大爷,

革命老区外出进城务工人员,

互联网非早期非专业站长,

喜好python,写作,阅读,英语

不入流程序,自媒体,seo . . .

公众号不挣钱,交个网友。

读者交流群已建立,找到我备注 “交流”,即可获得加入我们~

听说点 “在看” 的都变得更好看呐~

关注关注二大爷呗~给你分享python,写作,阅读的内容噢~

扫一扫下方二维码即可关注我噢~

218a2fe57caa20727be3f729f78c049e.jpeg

056b9a85a7720f64104e0d654afb6323.png

关注我的都变秃了

说错了,都变强了!

不信你试试

0784ab5aae781c7155626ae6e32abc8c.jpeg

扫码关注最新动态

公众号ID:eryeji

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值