哈希值与哈希碰撞

哈希碰撞

一、什么是哈希?

哈希(hash)就是讲不同的输入,映射成独一无二、固定长度的值,既哈希值。

我们可以理解为商品的条形码。任何商品都会有一个固定长度而又固定的条码。它的作用就类似于哈希。
在这里插入图片描述
哈希值长度可自己设定,哈希值一般比较长,并且由数字加字母组成,有n(26+10)种组合,可以有比较大的冗余。但毕竟哈希是通过算法算出来的。如果哈希值长度和数据总量不匹配。两个不同的输入,得到了同样的哈希值,那就发生了哈希碰撞。

二、如何防止哈希碰撞?

防止哈希碰撞最有效的方法,就是扩大哈希值的取值空间。

16个二进制位的哈希值,产生碰撞的可能性是65536分之一。也就是总量超过65536,就一定会产生碰撞。哈希值长度扩展为32个二进制位,碰撞的可能性就会下降到4,294,967,296分之一。

更长的哈希值意味着更大的存储空间、更多的计算,将影响性能和成本。那么,我们的需求就是计算在满足安全要求的情况下,找出哈希值的最短长度。

三、生日攻击

哈希碰撞的概率取决于两个因素(假设哈希函数是可靠的,每个值的生成概率都相同)。

  • 取值空间的大小(即哈希值的长度)
  • 整个生命周期中,哈希值的计算次数

这个问题在数学上早有原型,叫做"生日问题"(birthday problem):一个班级需要维持多少人,才能保证每个同学的生日都不一样?

答案很出人意料。如果至少两个同学生日相同的概率不超过5%,那么这个班只能有7个人。事实上,一个23人的班级有50%的概率,至少两个同学生日相同;50人班级有97%的概率,70人的班级则是99.9%的概率(计算方法见后文)。

这意味着,如果哈希值的取值空间是365,只要计算23个哈希值,就有50%的可能产生碰撞。也就是说,哈希碰撞的可能性,远比想象的高。实际上,有一个近似的公式。
在这里插入图片描述
上面公式可以算出,50% 的哈希碰撞概率所需要的计算次数,N 表示哈希的取值空间。生日问题的 N 就是365,算出来是 23.9。这个公式告诉我们,哈希碰撞所需耗费的计算次数,跟取值空间的平方根是一个数量级。

这种利用哈希空间不足够大,而制造碰撞的攻击方法,就被称为生日攻击(birthday attack)。

四、数学推导

至少两个人生日相同的概率,可以先算出所有人生日互不相同的概率,再用 1 减去这个概率。

我们把这个问题设想成,每个人排队依次进入一个房间。第一个进入房间的人,与房间里已有的人(0人),生日都不相同的概率是365/365;第二个进入房间的人,生日独一无二的概率是364/365;第三个人是363/365,以此类推。

因此,所有人的生日都不相同的概率,就是下面的公式。
在这里插入图片描述

上面公式的 n 表示进入房间的人数。可以看出,进入房间的人越多,生日互不相同的概率就越小。

这个公式可以推导成下面的形式。
在这里插入图片描述
那么,至少有两个人生日相同的概率,就是 1 减去上面的公式。
在这里插入图片描述

哈希碰撞公式

上面的公式,可以进一步推导成一般性的、便于计算的形式。

根据泰勒公式,指数函数 ex 可以用多项式展开。
在这里插入图片描述
如果 x 是一个极小的值,那么上面的公式近似等于下面的形式。
在这里插入图片描述
现在把生日问题的1/365代入。
在这里插入图片描述
因此,生日问题的概率公式,变成下面这样。
在这里插入图片描述

假设 d 为取值空间(生日问题里是 365),就得到了一般化公式。

上面就是哈希碰撞概率的公式。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值