从SHAttered事件谈安全

最新推荐文章于 2025-03-29 09:19:19 发布

tmchongye

最新推荐文章于 2025-03-29 09:19:19 发布

阅读量1.8k

点赞数

本文链接：https://blog.csdn.net/tmchongye/article/details/64386784

版权

本文详细探讨了SHA-1哈希算法的碰撞事件，解释了其在Git和HTTPS中的应用，以及为何这成为安全界的重大新闻。尽管SHA-1的不安全性在2005年已被提出，但直到2017年才有实际碰撞实例出现。随着计算能力的提升，攻击成本降低，SHA-1的安全性受到挑战。文章建议逐步淘汰SHA-1，转向SHA-2或SHA-3，同时提醒用户和开发者关注系统及软件更新，以提高安全性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在刚刚过去的2017年2月23日，Cryptology Group at Centrum Wiskunde & Informatica (CWI)和Google的研究人员公开了2个PDF文件，我也第一时间下载并按提示检查了SHA-1的校验值。文件内容和SHA1的结果如图1所示。

↑ 图1 重现大新闻

图1说明了一个很简单的事实：这是2个不同的PDF文档，但是它们的SHA-1校验值是一样的。
这个简单的事实（We have broken SHA-1 in practice.）轰动了安全界，因为这说明世界上首次实际意义上公开的SHA-1的碰撞试验取得了成功。

SHA-1是啥？

一句话：SHA-1是Hash算法的中广泛使用的一种。

哈希（Hash）又称为散列，或者杂凑，是一种算法。这种算法接受任意长度的数据输入，然后给出一个固定长度的输出。

↑ 图2 Hash示意图

如图2所示，Hash函数的输出反而没有特别的意义，一个设计一个优良的Hash函数，需要（尽量）满足如下条件：

通过输入可以容易地计算出输出
很难从给定的输出反推出输入，即不可逆性
不能修改输入（哪怕是微小的修改）而使得输出不变
不能找出2个不同的输入，使得输出一样

Hash的输出值（称为散列值或者数据的摘要）通常可以作为数据的指纹，这在密码学领域有重要的意义。

SHA（Secure Hash Algorithm）是由National Institute of Standards and Technology (NIST) 制定的作为U.S. Federal Information Processing Standard (FIPS)的散列函数家族。

↑ 图3 SHA家族

这次被发现碰撞的是SHA-1散列算法，是目前依然使用非常广泛的一种算法，它的输出是160个bits，图1中用了40个16进制数来表示。SHA-1被发现碰撞之所以能成为大新闻，和它的应用场景分不开。

大新闻做了啥？

虽然说在2005年文献[2]已经提出了复杂度小于的理论碰撞，在2013年文献[5]将这一数字优化到，但是他们都是理论分析，并没有给出实证。在不见棺材不掉泪的情况下，给出一个实例才是最好的。所以，The first collision for full SHA-1一文创造了第一个碰撞的实例。

他们基于[5]的研究，使用一种名为相同前缀碰撞攻击（identical-prefix collision attack）的方法：

即2条消息的前缀P是一样的，主要寻找2个数据对

使得2个完整消息的SHA-1输出相等，而后缀S可以是任意值。一旦这样的数据对找到，就严重违背了“不能找出2个不同的输入，使得输出一样”这一要求，也就宣布了SHA-1算法已经变得不安全。

当然找到这样一个碰撞的难度很大，得益于研究人员对算法的不断优化和GPU技术的发展，现在终于实现了在复杂度下的实际碰撞攻击。如果认为图1还是一个巧合的话（实际上这样的巧合发生概率趋近于0），论文中还给出了另外一组实例，如图4所示。

↑ 图4 SHA-1碰撞实例

这次的实际攻击是拿JPEG开刀，所以PDF中是2幅图像不同，也算是比较有视觉说服力的实例。按照惯例，这次碰撞攻击的细节（包括技术细节和源代码）将会在以后条件成熟时公开。

以Git为例

Git的本质是一种内容寻址的文件系统（Content-addressable filesystem），也就是说Git内部是通过键值对的方式存储的，而检索的本质是通过键来查找对应内容。因此向Git提交的任意内容，都会通过Hash算法得到一个唯一的键，以后可以通过这个键唯一地检索到存储的内容。而Git使用的Hash算法正是SHA-1。

最低0.47元/天解锁文章