在刚刚过去的2017年2月23日,Cryptology Group at Centrum Wiskunde & Informatica (CWI)和Google的研究人员公开了2个PDF文件,我也第一时间下载并按提示检查了SHA-1的校验值。文件内容和SHA1的结果如图1所示。
↑ 图1 重现大新闻
图1说明了一个很简单的事实:这是2个不同的PDF文档,但是它们的SHA-1校验值是一样的。
这个简单的事实(We have broken SHA-1 in practice.)轰动了安全界,因为这说明世界上首次实际意义上公开的SHA-1的碰撞试验取得了成功。
SHA-1是啥?
一句话:SHA-1是Hash算法的中广泛使用的一种。
哈希(Hash)又称为散列,或者杂凑,是一种算法。这种算法接受任意长度的数据输入,然后给出一个固定长度的输出。
↑ 图2 Hash示意图
如图2所示,Hash函数的输出反而没有特别的意义,一个设计一个优良的Hash函数,需要(尽量)满足如下条件:
- 通过输入可以容易地计算出输出
- 很难从给定的输出反推出输入,即不可逆性
- 不能修改输入(哪怕是微小的修改)而使得输出不变
- 不能找出2个不同的输入,使得输出一样
Hash的输出值(称为散列值或者数据的摘要)通常可以作为数据的指纹,这在密码学领域有重要的意义。
SHA(Secure Hash Algorithm)是由National Institute of Standards and Technology (NIST) 制定的作为U.S. Federal Information Processing Standard (FIPS)的散列函数家族。
↑ 图3 SHA家族
这次被发现碰撞的是SHA-1散列算法,是目前依然使用非常广泛的一种算法,它的输出是160个bits,图1中用了40个16进制数来表示。SHA-1被发现碰撞之所以能成为大新闻,和它的应用场景分不开。
大新闻做了啥?
虽然说在2005年文献[2]已经提出了复杂度小于的理论碰撞,在2013年文献[5]将这一数字优化到 ,但是他们都是理论分析,并没有给出实证。在不见棺材不掉泪的情况下,给出一个实例才是最好的。所以,The first collision for full SHA-1一文创造了第一个碰撞的实例。
他们基于[5]的研究,使用一种名为相同前缀碰撞攻击(identical-prefix collision attack)的方法:
即2条消息的前缀P是一样的,主要寻找2个数据对
使得2个完整消息的SHA-1输出相等,而后缀S可以是任意值。一旦这样的数据对找到,就严重违背了“不能找出2个不同的输入,使得输出一样”这一要求,也就宣布了SHA-1算法已经变得不安全。
当然找到这样一个碰撞的难度很大,得益于研究人员对算法的不断优化和GPU技术的发展,现在终于实现了在 复杂度下的实际碰撞攻击。如果认为图1还是一个巧合的话(实际上这样的巧合发生概率趋近于0),论文中还给出了另外一组实例,如图4所示。
↑ 图4 SHA-1碰撞实例
这次的实际攻击是拿JPEG开刀,所以PDF中是2幅图像不同,也算是比较有视觉说服力的实例。按照惯例,这次碰撞攻击的细节(包括技术细节和源代码)将会在以后条件成熟时公开。
以Git为例
Git的本质是一种内容寻址的文件系统(Content-addressable filesystem),也就是说Git内部是通过键值对的方式存储的,而检索的本质是通过键来查找对应内容。因此向Git提交的任意内容,都会通过Hash算法得到一个唯一的键,以后可以通过这个键唯一地检索到存储的内容。而Git使用的Hash算法正是SHA-1。