文章介绍
用Python在控制台打印中文如何不会乱码,一直是困扰很多Pythoner的问题,甚至很多Python老手也经常犯难。原因就在于从一般网页、数据库或文本外来数据源上抓取过来的内容,需要经过正确的编解码才可以正常输出,而Python的编解码机制比较复杂,没有深入思考的话经常遇到调试错误。这篇文章介绍了最常见的几种输出中文的情况,编译平台为Windows控制台,Python版本为2.7.9
文章中一些内容参考了点击打开链接 感谢原作者分享。
预备知识
str和unicode
首先需要弄清楚str和unicode的区别。str是字节串,由unicode经过编码(encode)后的字节组成的。unicode才是真正意义上的字符串,由字符组成。在编程过程中,必须搞明白要处理的是str还是unicode, 使用对的处理方法(str.decode/unicode.encode)。一个简单的原则是:不要对str使用encode,不要对unicode使用decode(事实上str可以使用encode的,但不建议这么做,这里就不再赘述了。
用下面的代码判断是否为unicode/str:
-*- coding=utf-8 -*-
isinstance(u'哈哈你好', unicode)
isinstance('哈哈你好',str)
打印结果均为True。
utf-8还是gbk
这两种都是中文的编码方式,选择其中哪一种都可以,但要注意的是必须同一项目中都统一使用,不能混合使用。
头部声明coding=utf