文章目录
标准文档: RFC 1321: The MD5 Message-Digest Algorithm (rfc-editor.org)
MD,是Message Digest的缩写。
Hash长度:128 bits(16 bytes)
MD5-32,其实是将128 bits转为16进制,变成128/4==32个字符。而MD5-16,则是取MD5-32中间16个字符:
MD5-16 == MD5-32[8,-8]
MD5强抗碰撞性于2004年被王小云教授攻破,即可以找到hash相同的两个消息:
MD5(m1) == MD5(m2)
其弱抗碰撞性并没有被攻破,即已知hash和消息,无法找出相同hash的另一消息。
应用:
- 仍可以搭配SHA进行校验(碰撞两个算法很难);
- 如果要将MD5用于安全用途(如口令),需要加salt。
算法流程
本部分根据RFC 1321文档进行整理。
注意在文档Terminology and Notation部分有声明,word是4字节(32 bits)小端存储的类型。
习惯上 dword才是4字节
Step 1. Append Padding Bits
填充数据,使位长度比512的倍数小64。
bitsLen == 448 mod 512
bytesLen == 56 mod 64
填充方法:
- 一个1,后续用0;
- 至少填充1 bit,至多512 bits(64 bytes)。
Step 2. Append Length
添加64 bits消息长度。若消息长度超过2^64,则只使用消息的低64 bits (2 words)。
经过这一步,消息长度就是512 bits (16 words)的倍数了。
Step 3. Initialize MD Buffer
小端序初始化4个word:
word A: 01 23 45 67
word B: 89 ab cd ef
word C: fe dc ba 98
word D: 76 54 32 10
对应C代码:
#define A 0x67452301
#define B 0xefcdab89
#define C 0x98badcfe
#define D 0x10325476
Step 4. Process Message in 16-Word Blocks
以512 bits (16 words == 64 bytes)为单位进行运算。
定义4种运算逻辑:
#define F(x, y, z) (((x) & (y)) | ((~x) & (z)))
#define G(x, y, z) (((x) & (z)) | ((y) & (~z)))
#define H(x, y, z) ((x) ^ (y) ^ (z))
#define I(x, y, z) ((y) ^ ((x) | (~z)))
准备一个长度64的加法常数表T:
# T[i] = 4294967296 * abs(sin(i)) / 1
import math
T = []
for i in range(1,65):
T.append(int(4294967296 * abs(math.sin(i)) / 1))
for i in range(64):
print("%d, %s" % (i, hex(T[i])))
下一步,执行4轮运算,每轮又包含16次操作。
完整的伪代码如下:
/* Process each 16-word block. */
For i = 0 to N/16-1 do
/* Copy block i into X. */
For j = 0 to 15 do
Set X[j] to M[i*16+j].
end /* of loop on j */
/* Save A as AA, B as BB, C as CC, and D as DD. */
AA = A
BB = B
CC = C
DD = D
/* Round 1. */
/* Let [abcd k s i] denote the operation
a = b + ((a + F(b,c,d) + X[k] + T[i]) <<< s). */
/* Do the following 16 operations. */
[ABCD 0 7 1] [DABC 1 12 2] [CDAB 2 17 3] [BCDA 3 22 4]
[ABCD 4 7 5] [DABC 5 12 6] [CDAB 6 17 7] [BCDA 7 22 8]
[ABCD 8 7 9] [DABC 9 12 10] [CDAB 10 17 11] [BCDA 11 22 12]
[ABCD 12 7 13] [DABC 13 12 14] [CDAB 14 17 15] [BCDA 15 22 16]
/* Round 2. */
/* Let [abcd k s i] denote the operation
a = b + ((a + G(b,c,d) + X[k] + T[i]) <<< s). */
/* Do the following 16 operations. */
[ABCD 1 5 17] [DABC 6 9 18] [CDAB 11 14 19] [BCDA 0 20 20]
[ABCD 5 5 21] [DABC 10 9 22] [CDAB 15 14 23] [BCDA 4 20 24]
[ABCD 9 5 25] [DABC 14 9 26] [CDAB 3 14 27] [BCDA 8 20 28]
[ABCD 13 5 29] [DABC 2 9 30] [CDAB 7 14 31] [BCDA 12 20 32]
/* Round 3. */
/* Let [abcd k s t] denote the operation
a = b + ((a + H(b,c,d) + X[k] + T[i]) <<< s). */
/* Do the following 16 operations. */
[ABCD 5 4 33] [DABC 8 11 34] [CDAB 11 16 35] [BCDA 14 23 36]
[ABCD 1 4 37] [DABC 4 11 38] [CDAB 7 16 39] [BCDA 10 23 40]
[ABCD 13 4 41] [DABC 0 11 42] [CDAB 3 16 43] [BCDA 6 23 44]
[ABCD 9 4 45] [DABC 12 11 46] [CDAB 15 16 47] [BCDA 2 23 48]
/* Round 4. */
/* Let [abcd k s t] denote the operation
a = b + ((a + I(b,c,d) + X[k] + T[i]) <<< s). */
/* Do the following 16 operations. */
[ABCD 0 6 49] [DABC 7 10 50] [CDAB 14 15 51] [BCDA 5 21 52]
[ABCD 12 6 53] [DABC 3 10 54] [CDAB 10 15 55] [BCDA 1 21 56]
[ABCD 8 6 57] [DABC 15 10 58] [CDAB 6 15 59] [BCDA 13 21 60]
[ABCD 4 6 61] [DABC 11 10 62] [CDAB 2 15 63] [BCDA 9 21 64]
/* Then perform the following additions. (That is increment each
of the four registers by the value it had before this block
was started.) */
A = A + AA
B = B + BB
C = C + CC
D = D + DD
end /* of loop on i */
其中<<<
是循环左移,如下:
unsigned long a = 0x12345678;
a = (((a) << (4)) | ((a) >> (32 - (4))));
// a == 0x23456781
而每轮的方括号对应如下逻辑:
#define FF(a, b, c, d, x, s, ac) { \
(a) += F ((b), (c), (d)) + (x) + (UINT4)(ac); \
(a) = ROTATE_LEFT ((a), (s)); \
(a) += (b); \
}
#define GG(a, b, c, d, x, s, ac) { \
(a) += G ((b), (c), (d)) + (x) + (UINT4)(ac); \
(a) = ROTATE_LEFT ((a), (s)); \
(a) += (b); \
}
#define HH(a, b, c, d, x, s, ac) { \
(a) += H ((b), (c), (d)) + (x) + (UINT4)(ac); \
(a) = ROTATE_LEFT ((a), (s)); \
(a) += (b); \
}
#define II(a, b, c, d, x, s, ac) { \
(a) += I ((b), (c), (d)) + (x) + (UINT4)(ac); \
(a) = ROTATE_LEFT ((a), (s)); \
(a) += (b); \
Step 5. Output
A, B, C, D 共16个字节,即最终的MD5值。
与MD4的区别
- 增加了第4轮运算;
- 每一步均有唯一的加法常数;
- 减弱第二轮中g函数的对称性;
- 每一步都加上了上一步的结果,优化了雪崩效应;
- 改变了第二轮和第三轮中访问消息子分组的次序,使其更不相似;
- 近似优化了每一轮中的循环左移位移量以实现更快的雪崩效应,各轮的位移量互不相同。
实现
RFC 1321结尾提供了c源码,共3个文件;
- global.h,8字节整型是c99才出现的,而MD5是1992年出现的,所以使用两个UINT4来存储长度,计算时要考虑溢出的情况。我在这里加入了UINT8。
- md5.h
- md5c.c
- mddriver.c ,用于测试md2, md4, md5,当然这里只有md5。
其中md5c.c是主要的实现源码,经过debug、var rename、修改和注释,已作为md5.c存入我的代码库:https://github.com/C0deStarr/CryptoImp/tree/main/Hash
补充
很多算法分析工具可以通过表T识别MD5算法。
MD5的3种变形方法:
- 改变初始化的A, B, C, D;
- 改变填充方法;
- 改变数据处理方法。