网络爬虫 - JavaScript解密Ⅱ(十八)


前言

我们所说的加密方式,都是对二进制编码的格式进行加密的,对应到Python中,则是我们的Bytes。

所以当我们在Python中进行加密操作的时候,要确保我们操作的是Bytes,否则就会报错。


一、字符串操作

1. 编码与解码

将字符串和Bytes互相转换可以使用encode()和decode()方法。如下所示:

# 方法中不传参数则是以默认的utf-8编码进行转换
a = "中国欢迎您".encode("utf-8")
print(a)  # b'\xe4\xb8\xad\xe5\x9b\xbd\xe6\xac\xa2\xe8\xbf\x8e\xe6\x82\xa8'
b = a.decode("utf-8")
print(b)  # 中国欢迎您

2. 进制转化

利用 binascii 模块可以将十六进制显示的字节转换成我们在加解密中更常用的显示方式:

import binascii
# 二进制到十六进制
c = binascii.b2a_hex('中国欢迎您'.encode())
print("c", c)  # b'e4b8ade59bbde6aca2e8bf8ee682a8'
# 十六进制到二进制
d = binascii.a2b_hex(c)
print(d)  #b'\xe4\xb8\xad\xe5\x9b\xbd\xe6\xac\xa2\xe8\xbf\x8e\xe6\x82\xa8'
v = binascii.a2b_hex(c).decode("utf-8")
print(v)  # 中国欢迎您

需要注意的是中文编码采用的是16进制的表达形式,类似于\x这样表达

二、URL编码

1. 简介

正常的URL中是只能包含ASCII字符的,也就是字符、数字和一些符号。而URL编码就是一种浏览器用来避免url中出现特殊字符(如汉字)的编码方式。其实就是将超出ASCII范围的字符转换成带%的十六进制格式。

2. Python实现

from urllib import parse
# 编码
a = parse.quote("中国欢迎您")
print(a)  #%E4%B8%AD%E5%9B%BD%E6%AC%A2%E8%BF%8E%E6%82%A8
# 解码
b = parse.unquote(a)
print(b)  # 中国欢迎您

三、Unicode编码

1. 简介

unicode编码我们又可以叫做是统一码。在计算机科学领域中是一中业界标准,unicode编码还包含了字符集、编码方案等等。unicode编码给每个字符提供了一个唯一的数字,不论是什么平台、不论是什么程序、不论是什么语言。unicode编码的出现是为
力更好的解决传统字符在编码产生的局此案问题。并且unicode编码给每种语言中的每个字符设定了统一并且唯一的二进制编码。

2. 编码说明

Unicode的表现方式是U+XXXXXX,X代表一位十六进制数,可以有4-6位,不足 4 位前补 0 补足 4 位,超过则按是几位就是几位。

字符A的ASCII码是65,将65转换成16进制就是41(16×4+(16^0)×1 = 65),按照规则前面补0,那么字符A的Unicode表示就是U+0041,依次类推B的Unicode表示就是U+0042…等等,汉字"爱"的字符表示是“U+7231”

3. Unicode编码的转化

def unicode_to_str(unicode_str):
    """将Unicode转义字符串转换为普通字符串
    
    Args:
        unicode_str: 包含Unicode转义序列的字符串(如'\\u4f60\\u597d')
    
    Returns:
        解码后的字符串(如'你好')
    """
    return unicode_str.encode().decode('unicode_escape')


def str_to_unicode(string):
    """将字符串转换为Unicode转义序列
    
    Args:
        string: 要转换的输入字符串(如'你好')
    
    Returns:
        Unicode转义序列字符串(如'\\u4f60\\u597d')
    """
    new_str = ''
    for ch in string:
        if '\u4e00' <= ch <= '\u9fff':  # 检查是否是CJK统一表意文字
            new_str += hex(ord(ch)).replace('0x', '\\u')
        else:
            new_str += ch
    return new_str


if __name__ == '__main__':
    # 测试用例
    result = str_to_unicode('你好')
    print(result)  # 输出: \u4f60\u597d
    print(repr(result))  # 输出: '\\u4f60\\u597d'
    print(unicode_to_str('\\u4f60\\u597d'))  # 输出: 你好

四、Base64编码

1. 简介

Base64是一种用64个字符来表示任意二进制数据的方法。

Base64编码可以成为密码学的基石。可以将任意的二进制数据进行Base64编码。所有的数据都能被编码为并只用65个字符就能表示的文本文件。( 65字符:A~Z a~z 0~9 + / = )编码后的数据~=编码前数据的4/3,会大1/3左右。

2. Base64编码的原理

在这里插入图片描述

  1. 将所有字符转化为ASCII码。
  2. 将ASCII码转化为8位二进制 。
  3. 将二进制3个归成一组(不足3个在后边补0)共24位,再拆分成4组,每组6位。
  4. 统一在6位二进制前补两个0凑足8位。
  5. 将补0后的二进制转为十进制。
  6. 从Base64编码表获取十进制对应的Base64编码。

3. Base64编码的说明

  1. 转换的时候,将三个byte的数据,先后放入一个24bit的缓冲区中,先来的byte占高位。
  2. 数据不足3byte的话,于缓冲区中剩下的bit用0补足。然后,每次取出6个bit,按照其值选择查表选择对应的字符作为编码后的输出。
  3. 不断进行,直到全部输入数据转换完成。
  4. 如果最后剩下两个输入数据,在编码结果后加1个“=”。
  5. 如果最后剩下一个输入数据,编码结果后加2个“=”。
  6. 如果没有剩下任何数据,就什么都不要加,这样才可以保证资料还原的正确性。

4. Python的Base64使用

Python内置的base64模块可以直接进行base64的编解码

注意:用于base64编码的,要么是ASCII包含的字符,要么是二进制数据

import base64

# 编码
a = base64.b64encode(b"hello world")
print(a)  # b'aGVsbG8gd29ybGQ='

# 解码
b = base64.b64decode(a)
print(b)  # b"hello world"

5. Base64格式的文件

在前端中,有很多文件也被编辑成base的文件,像我们之前看到过的有图片,字体文件等。使用这种格式的原因是在传递数据的时候方便传递,也便于还原数据。

五、MD5(信息-摘要算法)

1. 简述

message-digest algorithm 5(信息-摘要算法)。经常说的“MD5加密”,就是它→信息-摘要算法。

md5,其实就是一种算法。可以将一个字符串,或文件,或压缩包,执行md5后,就可以生成一个固定长度为128bit 的串。这个串,基本上是唯一的。

2. 不可逆性

每个人都有不同的指纹,看到这个人,可以得出他的指纹等信息,并且唯一对应,但你只看一个指纹,是不可能看到或读到这个人的长相或身份等信息。

3. 特点

  1. 压缩性:任意长度的数据,算出的MD5值长度都是固定的。
  2. 容易计算:从原数据计算出MD5值很容易。
  3. 抗修改性:对原数据进行任何改动,哪怕只修改1个字节,所得到的MD5值都有很大区别。
  4. 强抗碰撞:已知原数据和其MD5值,想找到一个具有相同MD5值的数据(即伪造数据)是非常困难的。

举个例子:我从树下捡了一片叶子,全世界有数不清的树叶,我就想整个世界会不会有一片完全一样的叶子? 以一片有限的叶子对世界上无限的树叶,这个理论上的确是可以找到一片完全的叶子,可是实际情况下很难很难找到。

4. Python的MD5使用

由于MD5模块在python3中被移除,在python3中使用hashlib模块进行md5操作

import hashlib

# 待加密信息
str = '中国你好'
# 创建md5对象,
# m
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

俾翻个牛B我

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值