https://www.jianshu.com/p/732d9d960411
1. 什么样子存储密码才是安全的呢?
- 直接存储密码明文m
- 存储密码明文的哈希值hash(m)
- 存储密码明文的加盐哈希 hash(m+salt),这里的salt可以是用户名,手机号等,但必须保证每个用户的salt都不一样才是安全的。
如果数据库被入侵。
第一方式,明文存储,无安全性可言。
第二种方式,虽然是入侵者得到的是hash值,但由于彩虹表的存在,也很容易批量还原出密码明文来。
只有第三种方式才是相对安全的。
2. 预计算的哈希链集?
首先:不是明文-》密码 的简单存储
要从c=hash(m)逆向得到原始明文m,有三种办法:
- 暴力破解法:时间成本太高。
- 字典法:提前构建一个“明文->密文”对应关系的一个大型数据库,破解时通过密文直接反查明文。但存储一个这样的数据库,空间成本是惊人的。
- 构建彩虹表:在字典法的基础上改进,以时间换空间。是现在破解哈希常用的办法。
彩虹表的前身--预先计算的散列链
既然存储所有的明文密码对需要的空间太大,密码学家们想出了一种以计算时间降低存储空间的办法:“预计算的哈希链集”(Precomputed hash chains)。
这是一条k=2哈希链:H函数就是要破解的哈希函数。
约简函数(reduction function)R函数是构建这条链的时候定义的一个函数:它的值域和定义域与H函数相反。通过该函数可以将哈希值约简为一个与原文相同格式的值。
这条链是这样生成的:
- 随机选择一个明文aaaaaa
- 对其求哈希得到281DAF40
- R(281DAF40) 得到另外一个明文sgfnyd。
- 继续重复2,3步骤
存储的时候,不需要存储所有的节点,只需要存储每条链的头尾节点(这里是aaaaaa和kiebgt)
要破解一个hash值,具体如何使用?
- 假设其刚好是920ECF10:首先对其进行一次R运算,得到kiebgt,然后发现刚好命中了哈希链集中的(aaaaaa,kiebgt)链条。可以确定其极大概率在这个链条中。于是从aaaaaa开始重复哈希链的计算过程,发现sgfnyd的哈希结果刚好是920ECF10,于是破解成功。
- 密文不是“920ECF10”而是“281DAF40”:第一次R运算后的结果并未在末节点中找到,则再重复一次H运算+R运算,这时又得到了末节点中的值“kiebgt”。于是再从头开始运算,可知aaaaaa刚好可哈希值为281DAF40。
- 如是重复了k(=2)次之后,仍然没有在末节点中找到对应的值,则破解失败。
3. 预计算的哈希链集的意义?
对于一个长度为k的预计算的哈希链集,每次破解计算次数不超过k,因此比暴力破解大大节约时间。
每条链只保存起节点和末节点,储存空间只需约1/k,因而大大节约了空间。
4. R函数引发的碰撞?
要发挥预计算的哈希链集的作用,需要一个分布均匀的R函数。当出现碰撞时,就会出现下面这种情况
111 --H--> EDEDED --R--> 222 --H--> FEDEFE --R--> 333 --H--> FEFEDC --R--> 444
454 --H--> FEDECE --R--> 333 --H--> FEFEDC --R--> 444 -H--> FEGEDC --R--> 555两条链出现了重叠。这两条哈希链能解密的明文数量就远小于理论上的明文数2×k。由于集合只保存链条的首末节点,因此这样的重复链条并不能被迅速地发现。
5. 彩虹表🌈
彩虹表的出现,针对性的解决了R函数导致的链重叠问题:
它在各步的运算中,并不使用统一的R函数,而是分别使用R1…Rk共k个不同的R函数(下划线表示下标)。
这样一来,及时发生碰撞,通常会是下面的情况:
111 --H--> EDEDED --R1--> 222 --H--> FEDEFE --R2--> 333 --H--> FEFEDC --R3--> 444
454 --H--> FEDECE --R1--> 333 --H--> FEFEDC --R2--> 474 -H--> FERFDC --R3--> 909
即使在极端情况下,两个链条同一序列位置上发生碰撞,导致后续链条完全一致,这样的链条也会因为末节点相同而检测出来,可以丢弃其中一条而不浪费存储空间。
- 首先,假设要破解的密文位于某一链条的k-1位置处,对其进行Rk运算,看是否能够在末节点中找到对应的值。如果找到,则可以如前所述,使用起节点验证其正确性。
- 否则,继续假设密文位于k-2位置处,这时就需要进行Rk-1、H、Rk两步运算,然后在末节点中查找结果。
- 如是反复,最不利条件下需要将密文进行完整的R1、H、…Rk运算后,才能得知密文是否存在于彩虹表之中。