Python 用hashlib求中文字符串的MD5值

最新推荐文章于 2023-08-30 16:10:42 发布

list_Lee

最新推荐文章于 2023-08-30 16:10:42 发布

阅读量2.6k

点赞数

使用过hashlib库的朋友想必都遇到过以下的错误吧：“Unicode-objects must be encoded before hashing”，意思是在进行md5哈希运算前，需要对数据进行编码。而且在不同版本的Python下还有所不同，唉Python还需努力啊，接口和消息都很不稳定。

hashlib.md5(data)函数中，data参数的类型应该是bytes。也就是说我们在进行hash前必须把数据转换成bytes类型，对于C程序而言似乎没有类似问题，指针强制转换就OK了。

对于中文，有朋友建议转为utf8，

同一中文字符串在gb2312和utf8下的值显然是不一样的（连长度都不一样），hash出来的md5会一样吗？
下面是正确的示例：
data = "你好"
m = hashlib.md5(data.encode("gb2312"))
print(m.hexdigest())
如果需要utf8编码下的md5&值，就该是m = hashlib.md5(data.encode("utf8"))。还可以试试：encode("mbcs")、encode("unicode_escape")以及encode("raw_unicode_escape")

问题解决了，但是心头的疑问却更多了。为什么不能直接hashlib.md5(data)，非要强制进行编码转换，设计者的初衷何在？中文字符在Python中是以什么形式存在？
print('%x'%ord(data[0]))
4f60

说明中文字符在Python中是以unicode存在的。至此，所有的疑问都得以解除了。
在hash前要求进行编码转换，是因为同一个字符串在不同的编码体系下有不同的值，为确保不发生歧义必须要进行一次显性转换。

extra:由于常用口令的MD5值很容易被计算出来，所以，要确保存储的用户口令不是那些已经被计算出来的常用口令的MD5，这一方法通过对原始口令加一个复杂字符串来实现，俗称“加盐”：

如果有两个用户都使用了相同的简单口令比如123456，在数据库中，将存储两条相同的MD5值，这说明这两个用户的口令是一样的。有没有办法让使用相同口令的用户存储不同的MD5呢？

如果假定用户无法修改登录名，就可以通过把登录名作为Salt的一部分来计算MD5，从而实现相同口令的用户也存储不同的MD5。

注意：摘要算法在很多地方都有广泛的应用。要注意摘要算法不是加密算法，不能用于加密（因为无法通过摘要反推明文），只能用于防篡改，但是它的单向计算特性决定了可以在不存储明文口令的情况下验证用户口令。