【搬家】【Python】【Windows】Windows Console 中 Python 输出中文字符乱码的问题

本文最早于 2014年3月14日于本人个人博客(http://mooowooo.tk)发表,现博客搬家至此,转载请注明出处。


最近常在 Windows 环境下使用 Python,但遇到一个很多时候的很常见的问题,字符集编码输出显示为乱码的问题。问题非常奇怪,具体复现如下:

# -*- coding: utf-8 -*-

import sys

print '测试1'
print u'测试2'
path1 = raw_input('输入1')
path2 = raw_input(u'输入2'.encode('gbk'))

为了方便起见,我就直接将所有代码贴在这里了。下面是这段代码在 Windows Console 里的运行结果。

如图,我们可以看到,第1、3行输出的内容为乱码,第2、4行输出的内容为正常的中文字符。那么为什么会出现这样的情况呢?我们针对代码中涉及到的两个函数 printrwa_input 来进行分析。

首先,我们在脚本的开头声明了编码格式为 utf-8 ,按照常理来说,我们应该可以很坦然的在代码里使用中文编码了,但事实是不可以,依旧乱码。那么是不是因为脚本保存时候选择的字符编码不正确的呢?尝试将文本内容保存为编码 utf-8。运行结果依旧出错。这就让人很困惑了。不要担心,继续试验。

同样的代码复制到 OS X 10.9.1 里,结果是怎样的呢?如下图:

可以看到,在同样是中文环境下的 OS X 10.9.1 系统里,Terminal 给出的运行结果是正确无误的。

所以,我们推测,也许问题是出在 Windows Console 本身上面。再经过测试——很遗憾没有保留代码和截图——解释器抛出一次异常,提示大意是 Console 只支持 ascii 编码。那么我们就清楚了,其实问题并不在文件保存时的字符编码上,也不在 Python 解释器上,而是出在 Windows Console 本身。

因为 Windows Console 默认支持的是 ascii 编码,那么自然遇到编码范围之外的字符就会默认解析为乱码了。那么下一条代码中,因为显式指定了以 utf-8 编码格式输出,所以,Python 解释器自然就会根据要求,正确输出为中文字符。————其实这个过程还有待研究,到底是怎样让 Window Console 输出为中文的。不过暂时我们的问题是解决了。

那么继续看下一对语句。同样的,第一句输出为乱码,也是因为默认解析为 ascii 编码后导致找不到对应字符所造成的。那么第二句,我们的疑问是,为什么在前面显式添加 u 表明以 utf-8 编码格式输出,为什么后面还必须调用 encode 方法呢?只加 u 标记为 utf-8 输出是否可以呢?答案是必须调用 encode 方法,只加 u 标记是不可以的,依旧会输出为乱码。而且请注意,我们调用 encode 方法作用时,是以 gbk 编码格式为目标格式的,也就是说,其实这段文字最终是以 gbk 编码格式输出到 Windows Console 上的。这就又是一个尚未解决的问题点。不过至少,我们也知道了当只显式的添加 u 不管用时,试试 encode 方法也许可以解决问题。

下面来罗列一下尚未解决的问题,作为下一步学习的目标:
1- 为什么在声明脚本中所有字符以 utf-8 格式后,直接向 Windows Console 输出中文编码会显示乱码?
2- print 函数中,显式在中文字符前添加 u 强制以 utf-8 解析后输出正常,其中作用的机制到底是怎样的?Python 解释到底针对这段字符做了哪些处理才达到了这样的结果。
3- 为什么 raw_input 函数中只在中文字符前添加 u 作为强制解析依旧会输出乱码?

以上就是分析后依旧存在的问题,希望读到这篇博客的朋友,如有了解这方面相关知识的,不吝赐教。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值