python coding与sys default_python – 为什么sys.getdefaultencoding()与sys.stdout.encoding不同？它如何破坏Unicode字符串...-CSDN博客

本文链接：https://blog.csdn.net/weixin_28730927/article/details/113638135

My question is why the two encoding variables are different in the first place

它们用于不同的目的.

sys.stdout.encoding应该是终端用来解释文本的编码,否则你可能会在输出中得到mojibake.在一个环境中可能是utf-8,在另一个环境中可能是cp437,等等.

sys.getdefaultencoding()在Python 2上用于隐式转换(当未明确设置编码时),即,Python 2可以将ascii-only字符串和Unicode字符串混合在一起,例如,xml.etree.ElementTree将ascii范围内的文本存储为bytestrings或json.dumps() returns an ascii-only bytestring instead of Unicode in Python 2 – 可能是由于性能 – 字节比代表ascii字符的Unicode便宜. Python 3中禁止隐式转换.

sys.getdefaultencoding()在Python 2中的所有系统上始终是’ascii’,除非你覆盖它不应该这样做,否则它可能会隐藏错误,并且由于使用可能错误的数据编码的隐式转换,您的数据可能很容易被破坏.

顺便说一句,还有另一个常见的编码sys.getfilesystemencoding()可能与两者不同. sys.getfilesystemencoding()应该是用于编码OS数据的编码(文件名,命令行参数,环境变量).

使用# – * – coding：utf-8 – * – 声明的源代码编码可能与所有已提到的编码不同.

当然,如果您从文件,网络中读取数据;它可以使用与上述不同的字符编码,例如,如果使用Windows ANSI编码(例如cp1252)保存在记事本中创建的文件,则在另一个系统上,所有标准编码都可以与之不同.

重点是：由于与Python无关的原因可能存在多种编码并避免头痛,使用Unicode来表示文本：在输入时尽快将编码文本转换为Unicode,并将其编码为字节(可能使用不同的编码)尽可能晚地输出 – 这就是所谓的Unicode sandwich的概念.

how do I manage to use the wrong encoding in this simple piece of code?

>您的第一个代码示例不正常.您在Python 2上的字节字符串中使用非ascii文字字符,您不应该这样做.仅将字节串的文字用于二进制数据(如果需要,可以使用所谓的本机字符串).代码可能产生mojibake,例如我需要20000Γé¼. (如果在任何不使用utf-8兼容编码的环境中使用Python 2运行它,请注意字符噪音),例如Windows控制台

>第二个代码示例是正确的,假设reload(sys)不是它的一部分.如果你不想在所有字符串文字前加上u”;你可以使用__future__ import unicode_literals