python hashlib 哈希算法

最新推荐文章于 2024-09-11 22:15:45 发布

jefferyLLLLL

最新推荐文章于 2024-09-11 22:15:45 发布

阅读量2.4k

点赞数 1

分类专栏： Python 文章标签： python hashlib 哈希算法

本文链接：https://blog.csdn.net/jeffery0207/article/details/101645900

版权

Python 专栏收录该内容

48 篇文章 10 订阅

订阅专栏

写在篇前

哈希加密算法应用非常广泛，包括数字签名，身份验证，操作检测，指纹，校验和（消息完整性检查），哈希表，密码存储等。在密码学中，好的哈希算法应该满足以下两个条件：一是无法从哈希值解密原始消息；二是，更改原始消息的一个字节，哈希消息会发生非常大的变化。
哈希函数以可变长度的字节序列的作为输入，并将其转换为固定长度的序列。这个过程是单向的，即意味着，如果f是哈希函数，则f(x)的计算相当简单快捷，但是如果尝试从f(x)获得x则可能需要数年时间。哈希函数返回的值通常称为secure hash（安全哈希），message digest（消息摘要）或 checksum（校验和）。大多数情况下，哈希函数会为给定的输入产生唯一的输出。但是有的哈希算法有可能会发生哈希碰撞。
在这里插入图片描述

基本使用

hashlib标准库提供了两个常量属性algorithms_available和algorithms_guaranteed，前者表示当前python解释器支持的hash算法名称（包括openssl提供的hash算法）；后者表示该标准库稳定支持的hash算法，如下所示：

>>> print(hashlib.algorithms_available)
{'sha224', 'sha512-224', 'md4', 'sha3_224', 'sha512-256', 'whirlpool', 'blake2b', 'sha3_512', 'sha3_384', 'md5-sha1', 'sha1', 'sha384', 'sha3_256', 'sha3-384', 'sha256', 'shake_256', 'shake_128', 'sha3-224', 'sm3', 'blake2s256', 'sha3-256', 'ripemd160', 'shake256', 'shake128', 'sha512', 'blake2s', 'mdc2', 'md5', 'blake2b512', 'sha3-512'}
>>> print(hashlib.algorithms_guaranteed)
{'sha3_512', 'blake2s', 'shake_256', 'sha224', 'sha3_384', 'shake_128', 'sha1', 'sha3_224', 'sha384', 'sha3_256', 'md5', 'sha256', 'sha512', 'blake2b'}

hashlib模块的基本使用非常简单，只需通过hashlib.encryption_algorithm_name(b“ message")即可对原始消息进行哈希操作。另外，可以使用update()函数将字节消息附加到hash值中。最后，通过使用digest()orhexdigest()函数获得hash值。需要注意的是，b被写在消息的左边表示该字符串是字节字符串：

>>> import hashlib
>>> hash_object = hashlib.md5(b'Hello World')
>>> print(hash_object.hexdigest())
b10a8db164e0754105b7a99be72e3fe5  # 32位
>>> hash_object.digest_size
16
>>> hash_object.block_size
64
>>> hash_object.name
'md5'

# 快捷方式
>>> hashlib.md5(b'Hello World').hexdigest()
b10a8db164e0754105b7a99be72e3fe5

>>> hash_object_b = hash_object.copy()
>>> hash_object_b.update(b' jeffery!').hexdigest()
df52e7ea0abbe37b8b799e7091522dff
>>> hashlib.md5(b'Hello World jeffery!').hexdigest()
df52e7ea0abbe37b8b799e7091522dff

构造hash对象还可以通过通用的new('encryption_algorithm_name')来实现，但是这种构造方法相比hashlib.encryption_algorithm_name()这类方法速度更慢，所以了解即可：

>>> h = hashlib.new('ripemd160')
>>> h.update(b"Nobody inspects the spammish repetition")
>>> h.hexdigest()
'cc4a5ce1b3df48aec5d22d1f16b894a0b894eccc'

应用示例

md5文件校验

上面例子中多次用到MD5算法，MD5，即Message-Digest Algorithm 5，是一种历经MD2、MD3和MD4发展而来的单向散列算法。其特点是，MD5接受任意长度的信息作为输入，输出为128位的数字指纹，且该数据指纹具有唯一性、不可逆性。MD5算法其中一个重要用途就是文件校验，比如大家上传资源到CSDN资源下载平台，发现平台已有的资源会被禁止上传，其中也许也用到了这种类似的算法，下面给出一个例子供参考：

import os
import hashlib


def get_file_md5_value(path, mode='rb', buffer=1024*1024, salt=None, encoding='utf-8'):
    """

    :param path: 文件路径
    :param mode: 文件读取模式
    :param buffer: buffer大小，单位为B, 默认为1024*1024B，即1M
    :param salt: 盐，一般文件重复校验不加盐
    :param encoding: 编码方式
    :return:
    """

    md5_obj = hashlib.md5()
    if salt is not None:
        if isinstance(salt, bytes):
            md5_obj.update(salt)
        else:
            md5_obj.update(str(salt).encode(encoding))

    file_size = os.path.getsize(path)  # 单位是字节，B
    with open(path, mode) as f:
        while file_size:
            if mode == 'rb':
                content = f.read(buffer)
            else:
                content = f.read(buffer).encode(encoding)
            file_size -= len(content)
            md5_obj.update(content)
    return md5_obj.hexdigest()


print(get_file_md5_value('result/AE_NET01.h5', salt='gc'))

hmac密码加密

我们知道数据库用户密码肯定不能明码存储，需要加密存储，但是直接加密md5(password)也同样不安全，因为根据彩虹表还是有很大几率可以破解密码，因此我们可以通过加盐的方式，让密码破解的难度更上一层楼。所谓加盐，即每位用户分配一段随机序列，作为salt(盐)和用户一起加密，即md5(password + salt)。python标准库hmac（Keyed-Hashing for Message Authentication）是一个对所有哈希算法都通用的标准算法。在计算哈希值的过程中，把salt混入。

>>> import hmac
>>> message = b'Hello, world!'
>>> key = b'secret'
>>> h = hmac.new(key, message, digestmod='MD5')
>>> h.hexdigest()
'fa4ee7d173f2d97ee79022d1a7355bcf'

在hash标准库中也有一个类似的函数hashlib.pbkdf2_hmac(hash_name, password, salt, iterations, dklen=None)，其中参数 name 是 HMAC 要用到的哈希摘要算法如sha256；password 和 salt 为字节串，应该大约 16 或更多个 bytes，可用os.urandom()；参数 iterations 应基于算法和计算能力设置，比如 100,000 轮 SHA-256 是推荐的次数；参数 dklen 是导出的密钥的长度。如果 dklen 是 None 那么就用参数 name 指定的哈希算法的摘要长度，比如SHA-512为64。

>>> import hashlib, binascii
>>> dk = hashlib.pbkdf2_hmac('sha256', b'password', b'salt', 100000)
>>> binascii.hexlify(dk)  # 返回二进制的十六进制
b'0394a2ede332c9a13eb82e9b24631604c31df978b4e2f0fbd2c549944f9d79a5'