hashCode，MD5，SHA-1的区别和碰撞量级_hashcode重复的概率-CSDN博客

本文链接：https://blog.csdn.net/luo4105/article/details/103142144

在java中，默认使用hashCode生成对象的hash值，它在一定程度上可以作为对象的唯一表示。同时还有MD5，SHA-1这些也可以计算文件/对象的hash值，标志唯一，那它们之间有什么区别呢。

hashcode，md5，SHA-1都是散列加密算法，其中hashcode长度为32位，md5为128位，sha-1为160位。位数越大，这个数据的数据量就越大，重复的几率越小，但是运算起来越复杂，消耗的计算资源越多。所以重复性来比较，hashcode > md5 > sha-1，而按计算消耗性能来比较hashcode < md5 < sha-1。即hashcode最容易出现重复，消耗性能最小。那么最容易出现重复具体量化是多少呢，是否有计算公式呢，实际是有的。著名的生日驳论就是描述这个数学现象的问题。

为什么会重复？

重复原因是随着新的元素越来越多，集合中存在重复的几率也越越来越大，如容量为10的集合，随机进一个数不重复的概率是1，在进一个数不重复的概率就是1/10，数越多，概率越大。

生日驳论是指，如果在一个房间要多少人，则两个人的生日相同的概率要大于50%? 答案是23人。

计算规则是让23个人依次进入，那么每个人生日都与其他人不同的概率依次是1，364/365，363/365，362/365，361/365，等等。先进入房间的这些人生日两两不同的概率是很大的，比如说前面5个是1×364/365×363/365×362/365×361/365=97.3%。而对于最后进入房间的几个人情况就完全不同。最后几个人进入房间并且找不到同生日者的概率是… 345/365，344/365，343/365

我们计算一下hashcode，md5，SHA-1的冲突率达到10%时的数量。

hashcode长度为32为，容积为 $2^{31}$ ,

import sys 
sys.setrecursionlimit(90000)

capacity = 2147483648; 
def notEqluasPR(num, lastPR) :
  PR = (2147483648-num)/2147483648 * lastPR;
  if PR < 0.9 :
    return num;
  return notEqluasPR(num+1,PR); 

print(notEqluasPR(2,1))