md5源码详解

首先感谢雁渡寒潭,它的一篇博客让我读懂了md5源码,本来打算把那篇文档地址复制到此,但链接已无效请见谅。


[MD5核心思路] :将信息分成N个512bit大小的BLOCK块,然后分别对每个BLOCK进行摘要运算,然后将结果用于下一个分组的运算,最终得到摘要结果。


MD5 算法描述

首先我们假设我们有一个b位的输入信息,我们想获得其报文摘要。这里 b 是任意非负整数;b可以是0,且不需要是8的整数倍,而且可以任意大。

我们将报文的位写成如下形式:

        m_0 m_1 ... m_{b-1}


下面的五步将得到报文的报文摘要。

Step 1. 添加填充位

报文将被“填补”(扩展),以使它的长度(以位计算)以512为模同余448。就是 说,扩展报文以使它被512除之后余64。填充总是执行的,即使报文已经以512为模同余448。

填充以如下方式进行:单个“1”bit附加到报文,之后附加“0”bits以使附加后的消息的长度(以位记)达到以512为模同余448。最终,最少1bit最多512bit被附加。 


Q:“填充总是执行的”如何理解?

A:假定待处理数据最后一个分组长度小于512bit,在最后一位添加0x80结束标志位,至于为什么以0x80做结束位,

     个人猜测是跟摘要结果长度固定为128=8*16有关吧。如果此时长度<448bit,则把从结束标志位到448这部分全部填0。

      如果原数据+结束标志>448,则把这个分组剩余部分全部填0,进行一次摘要运算,然后再建立一个分组,0-448bit全部填0。


Step 2. 附加长度

以64-bit 表示的b(还没有附加填充字节之前的长度)被附加了前一步产生的结果。

有时候b大于2^64 ,那么只有低位的64位被采用了。(这些bits被附加两个32bit的words,低位顺序,与先前的习惯一样。)

到此时为止报文(在附加bits和b之后)的长度恰好是512bits的整数倍。同样的,这个报文的长度也是16words的整数倍。

令M[0... N-1]表示消息的结果报文,这里N是16的整数倍。


Q:能否形象的举个栗子来说明?
A: 1、假定要处理的内容是“abc”,则待处理数据填充后只有一个分组:

     61 62 63 80 00 00 00 00 00 00 00 00 00 00 00 00    //第一个补0x80

     00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

     00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

     00 00 00 00 00 00 00 00 18 00 00 00 00 00 00 00     //3个字节24位,16进制表示为0x18,  小端序存放
  
      2、假定要处理的内容是"12345678901234567890123456789012345678901234567890123456789012345678901234567890",
     待处理数据填充后有2个分组,第一个分组如下:

     31 32 33 34 35 36 37 38 39 30 31 32 33 34 35 36

     37 38 39 30 31 32 33 34 35 36 37 38 39 30 31 32

     33 34 35 36 37 38 39 30 31 32 33 34 35 36 37 38

     39 30 31 32 33 34 35 36 37 38 39 30 31 32 33 34

     第二个分组如下:

     35 36 37 38 39 30 31 32 33 34 35

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MD5的全称是Message-digest Algorithm 5(信息-摘要算法),用于确保信息传输完整一致。在90年代初由MIT Laboratory for Computer Science和RSA Data Security Inc,的Ronald L. Rivest开发出来,经MD2、MD3和MD4发展而来。它的作用是让大容量信息在用数字签名软件签署私人密钥前被"压缩"成一种保密的格式(就是把一个任意长度的字节串变换成一定长的大整数)。不管是MD2、MD4还是MD5,它们都需要获得一个随机长度的信息并产生一个128位的信息摘要。虽然这些算法的结构或多或少有些相似,但MD2的设计与MD4和MD5完全不同,那是因为MD2是为8位机器做过设计优化的,而MD4和MD5却是面向32位的电脑。这三个算法的描述和c语言代码在Internet RFC 1321中有详细的描述(http://www.ietf.org/rfc/rfc1321.txt),这是一份最权威的文档,由Ronald L. Rivest在1992年8月向IETF提交。   MD5最广泛被用于各种软件的密码认证和钥匙识别上。通俗的讲就是人们讲的序列号,   Rivest在1989年开发出MD2算法。在这个算法中,首先对信息进行数据补位,使信息的字节长度是16的倍数。然后,以一个16位的检验和追加到信息末尾。并且根据这个新产生的信息计算出散列值。后来,Rogier和Chauvaud发现如果忽略了检验和将产生MD2冲突。MD2算法的加密后结果是唯一的--即没有重复。   为了加强算法的安全性,Rivest在1990年又开发出MD4算法。MD4算法同样需要填补信息以确保信息的字节长度加上448后能被512整除(信息字节长度mod 512 = 448)。然后,一个以64位二进制表示的信息的最初长度被添加进来。信息被处理成512位damg?rd/merkle迭代结构的区块,而且每个区块要通过三个不同步骤的处理。Den boer和Bosselaers以及其他人很快的发现了攻击MD4版本中第一步和第三步的漏洞。Dobbertin向大家演示了如何利用一部普通的个人电脑在几分钟内找到MD4完整版本中的冲突(这个冲突实际上是一种漏洞,它将导致对不同的内容进行加密却可能得到相同的加密后结果)。毫无疑问,MD4就此被淘汰掉了。   尽管MD4算法在安全上有个这么大的漏洞,但它对在其后才被开发出来的好几种信息安全加密算法的出现却有着不可忽视的引导作用。除了MD5以外,其中比较有名的还有sha-1、RIPEMD以及Haval等。   一年以后,即1991年,Rivest开发出技术上更为趋近成熟的md5算法。它在MD4的基础上增加了"安全-带子"(safety-belts)的概念。虽然MD5比MD4稍微慢一些,但却更为安全。这个算法很明显的由四个和MD4设计有少许不同的步骤组成。在MD5算法中,信息-摘要的大小和填充的必要条件与MD5完全相同。Den boer和Bosselaers曾发现MD5算法中的假冲突(pseudo-collisions),但除此之外就没有其他被发现的加密后结果了。   Van oorschot和Wiener曾经考虑过一个在散列中暴力搜寻冲突的函数(brute-force hash function),而且他们猜测一个被设计专门用来搜索MD5冲突的机器(这台机器在1994年的制造成本大约是一百万美元)可以平均每24天就找到一个冲突。但单从1991年到2001年这10年间,竟没有出现替代MD5算法的MD6或被叫做其他什么名字的新算法这一点,我们就可以看出这个瑕疵并没有太多的影响MD5的安全性。上面所有这些都不足以成为MD5的在实际应用中的问题。并且,由于MD5算法的使用不需要支付任何版权费用的,所以在一般的情况下(非绝密应用领域。但即便是应用在绝密领域内,MD5也不失为一种非常优秀的中间技术),MD5怎么都应该算得上是非常安全的了。   2004年8月17日的美国加州圣巴巴拉的国际密码学会议(Crypto’2004)上,来自中国山东大学的王小云教授做了破译MD5、HAVAL-128、 MD4和RIPEMD算法的报告,公布了MD系列算法的破解结果。宣告了固若金汤的世界通行密码标准MD5的堡垒轰然倒塌,引发了密码学界的轩然大波。   令世界顶尖密码学家想象不到的是,破解MD5之后,2005年2月,王小云教授又破解了另一国际密码SHA-1。因为SHA-1在美国等国际社会有更加广泛的应用,密码被破的消息一出,在国际社会的反响可谓石破天惊。换句话说,王小云的研究成果表明了从理论上讲电子签名可以伪造,必须及时添加限制条件,或者重新选用更为安全的密码标准,以保证电子商务的安全。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值