Unicode字符通常被编码为字节序列。这些字符中既有很多标准编码,也有很多非标准编码。
Python通常使用操作系统的默认编码处理文件和互联网通信,每个操作系统的处理细节各不相同。
使用PYTHONIOENCODING
环境变量进行通用设置。在Python之外设置这个变量可以保证在操作系统范围内使用特定的编码。
- Linux操作系统环境变量的设置命令如下:
export PYTHONIOENCODING=UTF-8
- Windows操作系统环境变量的设置方法:
我的电脑\计算机
→高级系统配置
→环境变量
→高级系统配置
→新建
Unicode定义了许多编码方案,其中UTF-8是最流行的,其他编码方案还有UTF-16和UTF-32。编码方案名称中的数字是该方案中每个字符的位数。一个包含1000个UTF-32编码字符的文件将有4000字节。一个包含1000个UTF-8编码字符的文件可能只有1000字节,具体的字节数取决于字符的精确组合,因为在UTF-8编码方案中,字符编码大于U+007F的字符需要使用多个字节表示。
不同的操作系统有各自的编码方案,Mac OS X文件通常使用MacRoman或latin-1编码,Windows文件可能使用CP1252编码。
这些编码方案的关键在于可以映射到Unicode字符的字节序列。另一种方法是把每个Unicode字符映射到一个或多个字节。理想情况下,所有的Unicode字符都被编码。实际上,其中一些编码方案是不完整的。编码方案最棘手的问题在于避免写入多余的字节。