python coding与sys default_python – 为什么sys.getdefaultencoding()与sys.stdout.encoding不同?它如何破坏Unicode字符串...

My question is why the two encoding variables are different in the first place

它们用于不同的目的.

sys.stdout.encoding应该是终端用来解释文本的编码,否则你可能会在输出中得到mojibake.在一个环境中可能是utf-8,在另一个环境中可能是cp437,等等.

sys.getdefaultencoding()在Python 2上用于隐式转换(当未明确设置编码时),即,Python 2可以将ascii-only字符串和Unicode字符串混合在一起,例如,xml.etree.ElementTree将ascii范围内的文本存储为bytestrings或json.dumps() returns an ascii-only bytestring instead of Unicode in Python 2 – 可能是由于性能 – 字节比代表ascii字符的Unicode便宜. Python 3中禁止隐式转换.

sys.getdefaultencoding()在Python 2中的所有系统上始终是’ascii’,除非你覆盖它不应该这样做,否则它可能会隐藏错误,并且由于使用可能错误的数据编码的隐式转换,您的数据可能很容易被破坏.

顺便说一句,还有另一个常见的编码sys.getfilesystemencoding()可能与两者不同. sys.getfilesystemencoding()应该是用于编码OS数据的编码(文件名,命令行参数,环境变量).

使用# – * – coding:utf-8 – * – 声明的源代码编码可能与所有已提到的编码不同.

当然,如果您从文件,网络中读取数据;它可以使用与上述不同的字符编码,例如,如果使用Windows ANSI编码(例如cp1252)保存在记事本中创建的文件,则在另一个系统上,所有标准编码都可以与之不同.

重点是:由于与Python无关的原因可能存在多种编码并避免头痛,使用Unicode来表示文本:在输入时尽快将编码文本转换为Unicode,并将其编码为字节(可能使用不同的编码)尽可能晚地输出 – 这就是所谓的Unicode sandwich的概念.

how do I manage to use the wrong encoding in this simple piece of code?

>您的第一个代码示例不正常.您在Python 2上的字节字符串中使用非ascii文字字符,您不应该这样做.仅将字节串的文字用于二进制数据(如果需要,可以使用所谓的本机字符串).代码可能产生mojibake,例如我需要20000Γé¼. (如果在任何不使用utf-8兼容编码的环境中使用Python 2运行它,请注意字符噪音),例如Windows控制台

>第二个代码示例是正确的,假设reload(sys)不是它的一部分.如果你不想在所有字符串文字前加上u”;你可以使用__future__ import unicode_literals

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值