前言
MD5算法在90年代被广泛使用在各种程序语言中,用以确保资料传递无误等。但是在1996年被证明存在弱点,是可以被破解的。但是其优势是十分的明显的,比如说稳定和快速,所以我们仍然可将其用于普通数据的错误检查领域。
1. 什么是MD5 ?
MD5消息算法摘要(英语:MD5 Message-Digest Algorithm),一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。MD5由美国密码学家罗纳德·李维斯特(Ronald Linn Rivest)设计,于1992年公开,用以取代MD4算法。(来源于维基百科)
2. MD5算法的特点
MD5算法具有以下特点:
-
压缩性:任意长度的数据,算出的MD5值长度都是固定的。
-
容易计算:从原数据计算出MD5值很容易。
-
抗修改性:对原数据进行任何改动,哪怕只修改1个字节,所得到的MD5值都有很大区别。
-
强抗碰撞:已知原数据和其MD5值,想找到一个具有相同MD5值的数据(即伪造数据)是非常困难的。
3. MD5的应用
MD5可以用在文件传输方面。具体来说就是,服务器会把文件进行MD5处理,提供一个MD5校验和,用户下载文件之后,可以使用MD5算法计算下载文件的校验和,通过对比,我们就可以知道文件传输过程中,是否出现了错误。
MD5算法甚至可以用于博彩,可以保证博彩的公平性。
4. MD5算法的底层原理
MD5算法用512位分组来处理用户输入的信息,每一个分组将会被划分成16个32位的子分组。经过一系列处理后,算法的输出由四个32位的输出组成,最后再把这四个32位的分组进行连接形成128位的散列值。
MD5算法大概可以分为以下四步:原文处理,设置初始值,循环加工,拼接结果。下面我们进行详细的分析。
4.1 原文处理
由于用户输入的信息的长度不一致,所以我们需要对其进行处理,对其进行补位。MD5算法的原理是:用输入的长度对448取余,不足448的进行补位,填充的方法是第一位补1,其他位补0。经过补位后,现在的长度为512*N+448。事实上,补位之后的结果已经不能代表真正的字符串,所以我们还需要记录下原来字符串的长度,方法是用(512-448=64)来记录实际的长度。
经过上面的处理之后,我们处理之后的信息的长度为512*(N+1)。
##4.2 设置初始值
MD5的hash结果为128位,可分为ABCD四组,每组为32位,都有其初始值。MD5算法的官方实现中,ABCD的初始值如下:
A=0x01234567
B=0x89ABCDEF
C=0xFEDCBA98
D=0x76543210
4.3 循环加工
这一步是最为复杂的一步。我们先来看一张来自维基百科的图。下面这张图详细展示了ABCD的值是如何发生变化的。
在每一次循环中,旧的ABCD都会产生新的ABCD,那么总共需要循环多少次呢?这个具体要由在 4.1 中处理之后的长度来决定。
假设我们处理之后的长度为M,那么主循环的次数为M / 512,每个主循环中包括512/32*4=64次子循环。上面的图展示的是每次子循环的步骤,下面对上图进行详细的解释:
- 绿色F:
图中的绿色F,代表非线性函数。官方MD5所用到的函数有四种:
F(X, Y, Z) =(X&Y) | ((~X) & Z)
G(X, Y, Z) =(X&Z) | (Y & (~Z))
H(X, Y, Z) &#