一种别样的Unicode Python编码方式，完美转换表情和阿拉伯语

原创

已于 2024-08-04 22:24:16 修改 · 1.2k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

于 2024-08-02 20:00:29 首次发布

我们可能有时候在处理字符时需要处理到非ASCII的字符，比如将表情、阿拉伯语转换为Unicode字符，从而避免在传输时会出现乱码的情况。

Unicode验证网站：
unicode转换网站

目的：转换下面除ASCII字符外的字符为Unicode字符👇

🔥🎱é🕐  19h📱mação nos stories!link

一、encode方法

看过网上的一些技术文，像以下方法

text = "你好世界"
escaped_text = text.encode('unicode-escape')
print(escaped_text) # b'\\u4f60\\u597d\\u4e16\\u754c'

上面的确实可以转换，但表情却不行，比如"🔥🎱"，转换之后是\\U0001f525\\U0001f3b1
去掉转义符号测试一下，没办法转换

而我们试试网站自身的编码，同样也是乱码，不能正常解析出来

这个方法显然不管用

二、高代理和低代理对处理方法

为了正确处理表情符号（Unicode Supplementary Characters），处理 Unicode 补充字符（Supplementary Characters），我们需要特别处理这些高代理和低代理对，这些字符的编码范围在 0x10000 到 0x10FFFF 之间，通常用于表示表情符号等。

高代理和低代理对（surrogate pairs）是 Unicode 用来编码超出基本多文种平面的字符的方法。基本多文种平面（BMP, Basic Multilingual Plane）包含从 0x0000 到 0xFFFF 的字符，而超出这个范围的字符称为补充字符（Supplementary Characters），它们的代码点范围是从 0x10000 到 0x10FFFF。

由于 UTF-16 编码格式只能表示 0x0000 到 0xFFFF 范围内的字符，为了表示超出这个范围的字符，Unicode 引入了代理对的概念。代理对由两个 16 位的代码单元组成：