我们可能有时候在处理字符时需要处理到非ASCII的字符,比如将表情、阿拉伯语转换为Unicode字符,从而避免在传输时会出现乱码的情况。
Unicode验证网站:
unicode转换网站
目的:转换下面除ASCII字符外的字符为Unicode字符👇
🔥🎱é🕐 19h📱mação nos stories!link
一、encode方法
看过网上的一些技术文,像以下方法
text = "你好世界"
escaped_text = text.encode('unicode-escape')
print(escaped_text) # b'\\u4f60\\u597d\\u4e16\\u754c'
上面的确实可以转换,但表情却不行,比如"🔥🎱",转换之后是\\U0001f525\\U0001f3b1
去掉转义符号测试一下,没办法转换
而我们试试网站自身的编码,同样也是乱码,不能正常解析出来
这个方法显然不管用
二、高代理和低代理对处理方法
为了正确处理表情符号(Unicode Supplementary Characters),处理 Unicode 补充字符(Supplementary Characters),我们需要特别处理这些高代理和低代理对,这些字符的编码范围在 0x10000 到 0x10FFFF 之间,通常用于表示表情符号等。
高代理和低代理对(surrogate pairs)是 Unicode 用来编码超出基本多文种平面的字符的方法。基本多文种平面(BMP, Basic Multilingual Plane)包含从 0x0000 到 0xFFFF 的字符,而超出这个范围的字符称为补充字符(Supplementary Characters),它们的代码点范围是从 0x10000 到 0x10FFFF。
由于 UTF-16 编码格式只能表示 0x0000 到 0xFFFF 范围内的字符,为了表示超出这个范围的字符,Unicode 引入了代理对的概念。代理对由两个 16 位的代码单元组成:
-
高代理单元(High Surrogate):范围是 0xD800 到 0xDBFF,包含 1024 个代码点。
-
低代理单元(Low Surrogate):范围是 0xDC00 到 0