md5算法笔记

本文详细介绍了MD5消息摘要算法的流程,包括填充、长度附加、初始化缓冲区、消息块处理和输出步骤,并对比了MD5与MD4的区别。MD5具有128位的哈希长度,尽管其强抗碰撞性已被攻破,但弱抗碰撞性未被破解,仍可用于校验。MD5运算包括四轮逻辑操作,每轮有不同的加法常数,通过特定的位移和循环左移增强雪崩效应。此外,还讨论了MD5的三种变形方法。
摘要由CSDN通过智能技术生成


标准文档: RFC 1321: The MD5 Message-Digest Algorithm (rfc-editor.org)

MD,是Message Digest的缩写。

Hash长度:128 bits(16 bytes)

MD5-32,其实是将128 bits转为16进制,变成128/4==32个字符。而MD5-16,则是取MD5-32中间16个字符:

MD5-16 == MD5-32[8,-8]

MD5强抗碰撞性于2004年被王小云教授攻破,即可以找到hash相同的两个消息:

MD5(m1) == MD5(m2)

其弱抗碰撞性并没有被攻破,即已知hash和消息,无法找出相同hash的另一消息。

应用:

  • 仍可以搭配SHA进行校验(碰撞两个算法很难);
  • 如果要将MD5用于安全用途(如口令),需要加salt。

算法流程

本部分根据RFC 1321文档进行整理。

注意在文档Terminology and Notation部分有声明,word是4字节(32 bits)小端存储的类型。

习惯上 dword才是4字节

Step 1. Append Padding Bits

填充数据,使位长度比512的倍数小64。

bitsLen == 448 mod 512
bytesLen == 56 mod 64

填充方法:

  1. 一个1,后续用0;
  2. 至少填充1 bit,至多512 bits(64 bytes)。

Step 2. Append Length

添加64 bits消息长度。若消息长度超过2^64,则只使用消息的低64 bits (2 words)。

经过这一步,消息长度就是512 bits (16 words)的倍数了。

Step 3. Initialize MD Buffer

小端序初始化4个word:

word A: 01 23 45 67
word B: 89 ab cd ef
word C: fe dc ba 98
word D: 76 54 32 10

对应C代码:

#define A 0x67452301
#define B 0xefcdab89
#define C 0x98badcfe
#define D 0x10325476

Step 4. Process Message in 16-Word Blocks

以512 bits (16 words == 64 bytes)为单位进行运算。

定义4种运算逻辑:

#define F(x, y, z) (((x) & (y)) | ((~x) & (z)))    
#define G(x, y, z) (((x) & (z)) | ((y) & (~z)))
#define H(x, y, z) ((x) ^ (y) ^ (z))
#define I(x, y, z) ((y) ^ ((x) | (~z)))

准备一个长度64的加法常数表T:

# T[i] = 4294967296 * abs(sin(i)) / 1
import math
T = []
for i in range(1,65):
    T.append(int(4294967296 * abs(math.sin(i)) / 1))
for i in range(64):
    print("%d, %s" % (i, hex(T[i])))

下一步,执行4轮运算,每轮又包含16次操作。

完整的伪代码如下:

/* Process each 16-word block. */
For i = 0 to N/16-1 do
	/* Copy block i into X. */
    For j = 0 to 15 do
    	Set X[j] to M[i*16+j].
    end /* of loop on j */
    
    /* Save A as AA, B as BB, C as CC, and D as DD. */
    AA = A
    BB = B
    CC = C
    DD = D
    
    /* Round 1. */
    /* Let [abcd k s i] denote the operation
    a = b + ((a + F(b,c,d) + X[k] + T[i]) <<< s). */
    /* Do the following 16 operations. */
    [ABCD 0 7 1] [DABC 1 12 2] [CDAB 2 17 3] [BCDA 3 22 4]
    [ABCD 4 7 5] [DABC 5 12 6] [CDAB 6 17 7] [BCDA 7 22 8]
    [ABCD 8 7 9] [DABC 9 12 10] [CDAB 10 17 11] [BCDA 11 22 12]
    [ABCD 12 7 13] [DABC 13 12 14] [CDAB 14 17 15] [BCDA 15 22 16]
    
    /* Round 2. */
    /* Let [abcd k s i] denote the operation
    a = b + ((a + G(b,c,d) + X[k] + T[i]) <<< s). */
    /* Do the following 16 operations. */
    [ABCD 1 5 17] [DABC 6 9 18] [CDAB 11 14 19] [BCDA 0 20 20]
    [ABCD 5 5 21] [DABC 10 9 22] [CDAB 15 14 23] [BCDA 4 20 24]
    [ABCD 9 5 25] [DABC 14 9 26] [CDAB 3 14 27] [BCDA 8 20 28]
    [ABCD 13 5 29] [DABC 2 9 30] [CDAB 7 14 31] [BCDA 12 20 32]
    
    /* Round 3. */
    /* Let [abcd k s t] denote the operation
    a = b + ((a + H(b,c,d) + X[k] + T[i]) <<< s). */
    /* Do the following 16 operations. */
    [ABCD 5 4 33] [DABC 8 11 34] [CDAB 11 16 35] [BCDA 14 23 36]
    [ABCD 1 4 37] [DABC 4 11 38] [CDAB 7 16 39] [BCDA 10 23 40]
    [ABCD 13 4 41] [DABC 0 11 42] [CDAB 3 16 43] [BCDA 6 23 44]
    [ABCD 9 4 45] [DABC 12 11 46] [CDAB 15 16 47] [BCDA 2 23 48]
    
    /* Round 4. */
    /* Let [abcd k s t] denote the operation
    a = b + ((a + I(b,c,d) + X[k] + T[i]) <<< s). */
    /* Do the following 16 operations. */
    [ABCD 0 6 49] [DABC 7 10 50] [CDAB 14 15 51] [BCDA 5 21 52]
    [ABCD 12 6 53] [DABC 3 10 54] [CDAB 10 15 55] [BCDA 1 21 56]
    [ABCD 8 6 57] [DABC 15 10 58] [CDAB 6 15 59] [BCDA 13 21 60]
    [ABCD 4 6 61] [DABC 11 10 62] [CDAB 2 15 63] [BCDA 9 21 64]
    /* Then perform the following additions. (That is increment each
    of the four registers by the value it had before this block
    was started.) */
    
    A = A + AA
    B = B + BB
    C = C + CC
    D = D + DD
end /* of loop on i */

其中<<<是循环左移,如下:

unsigned long a = 0x12345678;
a = (((a) << (4)) | ((a) >> (32 - (4))));
// a == 0x23456781

而每轮的方括号对应如下逻辑:

#define FF(a, b, c, d, x, s, ac) { \
	(a) += F ((b), (c), (d)) + (x) + (UINT4)(ac); \
	(a) = ROTATE_LEFT ((a), (s)); \
	(a) += (b); \
}
#define GG(a, b, c, d, x, s, ac) { \
	(a) += G ((b), (c), (d)) + (x) + (UINT4)(ac); \
	(a) = ROTATE_LEFT ((a), (s)); \
	(a) += (b); \
}
#define HH(a, b, c, d, x, s, ac) { \
	(a) += H ((b), (c), (d)) + (x) + (UINT4)(ac); \
	(a) = ROTATE_LEFT ((a), (s)); \
	(a) += (b); \
}
#define II(a, b, c, d, x, s, ac) { \
	(a) += I ((b), (c), (d)) + (x) + (UINT4)(ac); \
	(a) = ROTATE_LEFT ((a), (s)); \
	(a) += (b); \

Step 5. Output

A, B, C, D 共16个字节,即最终的MD5值。

与MD4的区别

  • 增加了第4轮运算;
  • 每一步均有唯一的加法常数;
  • 减弱第二轮中g函数的对称性;
  • 每一步都加上了上一步的结果,优化了雪崩效应;
  • 改变了第二轮和第三轮中访问消息子分组的次序,使其更不相似;
  • 近似优化了每一轮中的循环左移位移量以实现更快的雪崩效应,各轮的位移量互不相同。

实现

RFC 1321结尾提供了c源码,共3个文件;

  • global.h,8字节整型是c99才出现的,而MD5是1992年出现的,所以使用两个UINT4来存储长度,计算时要考虑溢出的情况。我在这里加入了UINT8。
  • md5.h
  • md5c.c
  • mddriver.c ,用于测试md2, md4, md5,当然这里只有md5。

其中md5c.c是主要的实现源码,经过debug、var rename、修改和注释,已作为md5.c存入我的代码库:https://github.com/C0deStarr/CryptoImp/tree/main/Hash

补充

很多算法分析工具可以通过表T识别MD5算法。

MD5的3种变形方法:

  • 改变初始化的A, B, C, D;
  • 改变填充方法;
  • 改变数据处理方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值