MD5原理及加密字符串和文件

最新推荐文章于 2024-02-29 16:27:11 发布

土豆洋芋山药蛋

最新推荐文章于 2024-02-29 16:27:11 发布

阅读量8.9k

点赞数 5

分类专栏：密码编码学与网络安全文章标签： python MD5 md5原理 md5应用加密字符串和文件

本文链接：https://blog.csdn.net/qq_33414271/article/details/78581282

版权

密码编码学与网络安全专栏收录该内容

7 篇文章 1 订阅

订阅专栏

基本概念

MD5，全名Message Digest Algorithm 5 ，中文名为消息摘要算法第五版，为计算机安全领域广泛使用的一种散列函数，用以提供消息的完整性保护。
主要是通过特定的hash散列方法将文本信息转换成简短的信息摘要，压缩+加密+hash算法的结合体，是绝对不可逆的。
不同消息（文件）的MD5码不一样，所以经常用来检验文件是否被修改过。

使用MD5加密消息和字符串（python）

其中使用到的文本和大的文件请自行准备，然后替换测试代码中的目录哦

#coding=utf-8  
import hashlib                    

""" MD5加密算法，返回32位小写16进制符号 """                         
def md5hex(word):  
  if isinstance(word, unicode):  
    word = word.encode("utf-8")  
  elif not isinstance(word, str):  
    word = str(word)  
  m = hashlib.md5()  
  m.update(word)  
  return m.hexdigest() 

'''MD5加密文件'''   
def md5_file(name):
  m =hashlib.md5()
  a_file = open(name, 'rb') #需要使用二进制格式读取文件内容
  m.update(a_file.read())
  a_file.close()
  return m.hexdigest()

'''加密大的文件'''
def MD5ForBigFile(file):  
  m = hashlib.md5()  
  f = open(file, 'rb')  
  buffer = 8192    

  while 1:  
    chunk = f.read(buffer)  
    if not chunk : break  
    m.update(chunk)  

  f.close()  
  return m.hexdigest()  

strMD5=md5hex('abc')
fileMD5=md5_file('C:/Users/admin/Desktop/test.txt')
bigFileMD5=MD5ForBigFile('C:/adt.zip')
print('MD5: '+strMD5)
print('fileMD5: '+fileMD5)
print('bigFileMD5: '+bigFileMD5)

MD5原理

如果你还想看MD5原理的话，请继续往下看吧

MD5以512位分组来处理输入的信息，且每一分组又被划分为16个32位子分组，经过了一系列的处理后，算法的输出由四个32位分组组成，将这四个32位分组级联后将生成一个128位散列值。

第一步、填充

如果输入信息的长度(bit)对512求余的结果不等于448，就需要填充使得对512求余的结果等于448。填充的方法是填充一个1和n个0。填充完后，信息的长度就为N*512+448(bit)；

第二步、记录信息长度

用64位来存储填充前信息长度。这64位加在第一步结果的后面，这样信息长度就变为N*512+448+64=(N+1)*512位。

第三步、装入标准的幻数（四个整数）

标准的幻数（物理顺序）是（A=(01234567)16，B=(89ABCDEF)16，C=(FEDCBA98)16，D=(76543210)16）。如果在程序中定义应该是（A=0X67452301L，B=0XEFCDAB89L，C=0X98BADCFEL，D=0X10325476L）。有点晕哈，其实想一想就明白了。

首先清楚整型的位表示方法，其次标准文档上要求的是：四个幻数在内存地址上从低到高为：
A: 01 23 45 67
B: 89 ab cd ef
C: fe dc ba 98
D: 76 54 32 10
采用小端表示法表示为A=0X67452301L，则在地址中就是A=01 23 45 67

小端法和大端法区别如下图：
这里写图片描述

第四步、四轮循环运算

1.把消息分以512位为一分组进行处理
2.每一个分组进行4轮变换，以上面所说4个标准的幻数为起始变量进行计算，重新输出4个变量
3.以这4个变量再进行下一分组的运算，如果已经是最后一个分组，则这4个变量为最后的结果，即MD5值。

这里写图片描述

循环的次数是分组的个数（N+1）
1）将每一512字节细分成16个小组，每个小组64位（8个字节）
2）先认识四个线性函数(&是与,|是或,~是非,^是异或)

F(X,Y,Z)=(X&Y)|((~X)&Z)  
G(X,Y,Z)=(X&Z)|(Y&(~Z))  
H(X,Y,Z)=X^Y^Z  
I(X,Y,Z)=Y^(X|(~Z))

3）设Mj表示消息的第j个子分组（从0到15），<<< s表示循环左移s位，则四种操作为：

FF(a,b,c,d,Mj,s,ti)表示a=b+((a+F(b,c,d)+Mj+ti)<<<s)  
GG(a,b,c,d,Mj,s,ti)表示a=b+((a+G(b,c,d)+Mj+ti)<<<s)  
HH(a,b,c,d,Mj,s,ti)表示a=b+((a+H(b,c,d)+Mj+ti)<<<s)  
II(a,b,c,d,Mj,s,ti)表示a=b+((a+I(b,c,d)+Mj+ti)<<<s)

4）四轮运算

第一轮  
a=FF(a,b,c,d,M0,7,0xd76aa478)  
 b=FF(d,a,b,c,M1,12,0xe8c7b756)  
 c=FF(c,d,a,b,M2,17,0x242070db)  
 d=FF(b,c,d,a,M3,22,0xc1bdceee)  
 a=FF(a,b,c,d,M4,7,0xf57c0faf)  
 b=FF(d,a,b,c,M5,12,0x4787c62a)  
 c=FF(c,d,a,b,M6,17,0xa8304613)  
 d=FF(b,c,d,a,M7,22,0xfd469501)  
 a=FF(a,b,c,d,M8,7,0x698098d8)  
 b=FF(d,a,b,c,M9,12,0x8b44f7af)  
 c=FF(c,d,a,b,M10,17,0xffff5bb1)  
 d=FF(b,c,d,a,M11,22,0x895cd7be)  
 a=FF(a,b,c,d,M12,7,0x6b901122)  
 b=FF(d,a,b,c,M13,12,0xfd987193)  
 c=FF(c,d,a,b,M14,17,0xa679438e)  
 d=FF(b,c,d,a,M15,22,0x49b40821)  

第二轮  
a=GG(a,b,c,d,M1,5,0xf61e2562)  
 b=GG(d,a,b,c,M6,9,0xc040b340)  
 c=GG(c,d,a,b,M11,14,0x265e5a51)  
 d=GG(b,c,d,a,M0,20,0xe9b6c7aa)  
 a=GG(a,b,c,d,M5,5,0xd62f105d)  
 b=GG(d,a,b,c,M10,9,0x02441453)  
 c=GG(c,d,a,b,M15,14,0xd8a1e681)  
 d=GG(b,c,d,a,M4,20,0xe7d3fbc8)  
 a=GG(a,b,c,d,M9,5,0x21e1cde6)  
 b=GG(d,a,b,c,M14,9,0xc33707d6)  
 c=GG(c,d,a,b,M3,14,0xf4d50d87)  
 d=GG(b,c,d,a,M8,20,0x455a14ed)  
 a=GG(a,b,c,d,M13,5,0xa9e3e905)  
 b=GG(d,a,b,c,M2,9,0xfcefa3f8)  
 c=GG(c,d,a,b,M7,14,0x676f02d9)  
 d=GG(b,c,d,a,M12,20,0x8d2a4c8a)  

第三轮  
a=HH(a,b,c,d,M5,4,0xfffa3942)  
 b=HH(d,a,b,c,M8,11,0x8771f681)  
 c=HH(c,d,a,b,M11,16,0x6d9d6122)  
 d=HH(b,c,d,a,M14,23,0xfde5380c)  
 a=HH(a,b,c,d,M1,4,0xa4beea44)  
 b=HH(d,a,b,c,M4,11,0x4bdecfa9)  
 c=HH(c,d,a,b,M7,16,0xf6bb4b60)  
 d=HH(b,c,d,a,M10,23,0xbebfbc70)  
 a=HH(a,b,c,d,M13,4,0x289b7ec6)  
 b=HH(d,a,b,c,M0,11,0xeaa127fa)  
 c=HH(c,d,a,b,M3,16,0xd4ef3085)  
 d=HH(b,c,d,a,M6,23,0x04881d05)  
 a=HH(a,b,c,d,M9,4,0xd9d4d039)  
 b=HH(d,a,b,c,M12,11,0xe6db99e5)  
 c=HH(c,d,a,b,M15,16,0x1fa27cf8)  
 d=HH(b,c,d,a,M2,23,0xc4ac5665)  

第四轮  
a=II(a,b,c,d,M0,6,0xf4292244)  
 b=II(d,a,b,c,M7,10,0x432aff97)  
 c=II(c,d,a,b,M14,15,0xab9423a7)  
 d=II(b,c,d,a,M5,21,0xfc93a039)  
 a=II(a,b,c,d,M12,6,0x655b59c3)  
 b=II(d,a,b,c,M3,10,0x8f0ccc92)  
 c=II(c,d,a,b,M10,15,0xffeff47d)  
 d=II(b,c,d,a,M1,21,0x85845dd1)  
 a=II(a,b,c,d,M8,6,0x6fa87e4f)  
 b=II(d,a,b,c,M15,10,0xfe2ce6e0)  
 c=II(c,d,a,b,M6,15,0xa3014314)  
 d=II(b,c,d,a,M13,21,0x4e0811a1)  
 a=II(a,b,c,d,M4,6,0xf7537e82)  
 b=II(d,a,b,c,M11,10,0xbd3af235)  
 c=II(c,d,a,b,M2,15,0x2ad7d2bb)  
 d=II(b,c,d,a,M9,21,0xeb86d391)

5）每轮循环后，将A，B，C，D分别加上a，b，c，d，然后进入下一循环。

三、MD5应用

1、一致性验证
MD5的典型应用是对一段文本信息产生信息摘要，以防止被篡改。常常在某些软件下载站点的某软件信息中看到其MD5值，它的作用就在于我们可以在下载该软件后，对下载回来的文件用专门的软件（如Windows MD5 Check等）做一次MD5校验，以确保我们获得的文件与该站点提供的文件为同一文件。
2、数字证书
如果有一个第三方的认证机构，用MD5还可以防止文件作者的“抵赖”，这就是所谓的数字签名应用。
3、安全访问认证
在Unix系统中用户的密码是以MD5（或其它类似的算法）经Hash运算后存储在文件系统中。当用户登录的时候，系统把用户输入的密码进行MD5 Hash运算，然后再去和保存在文件系统中的MD5值进行比较，进而确定输入的密码是否正确。通过这样的步骤，系统在并不知道用户密码的明码的情况下就可以确定用户登录系统的合法性。

三、MD5算法的不足。

现在看来，MD5已经较老，散列长度通常为128位，随着计算机运算能力提高，找到“碰撞”是可能的。因此，在安全要求高的场合不使用MD5。

2004年，王小云教授证明MD5数字签名算法可以产生碰撞。2007年，Marc Stevens，Arjen K. Lenstra和Benne de Weger进一步指出通过伪造软件签名，可重复性攻击MD5算法。研究者使用前缀碰撞法（chosen-prefix collision），使程序前端包含恶意程序，利用后面的空间添上垃圾代码凑出同样的MD5 Hash值。2007年，荷兰埃因霍芬技术大学科学家成功把2个可执行文件进行了MD5碰撞，使得这两个运行结果不同的程序被计算出同一个MD5。2008年12月科研人员通过MD5碰撞成功生成了伪造的SSL证书，这使得在https协议中服务器可以伪造一些根CA的签名。

MD5被攻破后，在Crypto2008上， Rivest提出了MD6算法，该算法的Block size为512 bytes(MD5的Block Size是512 bits), Chaining value长度为1024 bits, 算法增加了并行机制，适合于多核CPU。在安全性上，Rivest宣称该算法能够抵抗截至目前已知的所有的攻击（包括差分攻击）。

参考：
http://blog.csdn.net/xiaofengcanyuexj/article/details/37698801
https://www.cnblogs.com/ttss/p/4243274.html
https://www.cnblogs.com/ttss/p/4243274.html

土豆洋芋山药蛋

关注

5
点赞
踩
15

收藏

觉得还不错? 一键收藏
5
评论
MD5原理及加密字符串和文件

基本概念MD5，全名Message Digest Algorithm 5 ，中文名为消息摘要算法第五版，为计算机安全领域广泛使用的一种散列函数，用以提供消息的完整性保护。主要是通过特定的hash散列方法将文本信息转换成简短的信息摘要，压缩+加密+hash算法的结合体，是绝对不可逆的。不同消息（文件）的MD5码不一样，所以经常用来检验文件是否被修改过。使用MD5加密消息和字符串（
复制链接

扫一扫