My question is why the two encoding variables are different in the first place
它们用于不同的目的.
sys.stdout.encoding应该是终端用来解释文本的编码,否则你可能会在输出中得到mojibake.在一个环境中可能是utf-8,在另一个环境中可能是cp437,等等.
sys.getdefaultencoding()在Python 2上用于隐式转换(当未明确设置编码时),即,Python 2可以将ascii-only字符串和Unicode字符串混合在一起,例如,xml.etree.ElementTree将ascii范围内的文本存储为bytestrings或json.dumps() returns an ascii-only bytestring instead of Unicode in Python 2 – 可能是由于性能 – 字节比代表ascii字符的Unicode便宜. Python 3中禁止隐式转换.
sys.getdefaultencoding()在Python 2中的所有系统上始终是’ascii’,除非你覆盖它不应该这样做,否则它可能会隐藏错误,并且由于使用可能错误的数据编码的隐式转换,您的数据可能很容易被破坏.
顺便说一句,还有另一个常见的编码sys.getfilesystemencoding()可能与两者不同. sys.getfilesystemencoding()应该是用于编码OS数据的编码(文件名,命令行参数,环境变量).
使用# – * – coding:utf-8 – * – 声明的源代码编码可能与所有已提到的编码不同.
当然,如果您从文件,网络中读取数据;它可以使用与上述不同的字符编码,例如,如果使用Windows ANSI编码(例如cp1252)保存在记事本中创建的文件,则在另一个系统上,所有标准编码都可以与之不同.
重点是:由于与Python无关的原因可能存在多种编码并避免头痛,使用Unicode来表示文本:在输入时尽快将编码文本转换为Unicode,并将其编码为字节(可能使用不同的编码)尽可能晚地输出 – 这就是所谓的Unicode sandwich的概念.
how do I manage to use the wrong encoding in this simple piece of code?
>您的第一个代码示例不正常.您在Python 2上的字节字符串中使用非ascii文字字符,您不应该这样做.仅将字节串的文字用于二进制数据(如果需要,可以使用所谓的本机字符串).代码可能产生mojibake,例如我需要20000Γé¼. (如果在任何不使用utf-8兼容编码的环境中使用Python 2运行它,请注意字符噪音),例如Windows控制台
>第二个代码示例是正确的,假设reload(sys)不是它的一部分.如果你不想在所有字符串文字前加上u”;你可以使用__future__ import unicode_literals