Python字符编码问题

最新推荐文章于 2024-10-10 09:39:14 发布

ming2281

最新推荐文章于 2024-10-10 09:39:14 发布

阅读量178

点赞数

分类专栏： Python基础文章标签： python 编码

本文链接：https://blog.csdn.net/ming2281/article/details/42103691

版权

1 篇文章 0 订阅

订阅专栏

写Python经常受到字符编码的困扰, 此问题主要是在2.x中. 因为2.x中的字符串有两种类型: str和Unicode, 它们共同的祖先是basestring.下面的经验主要是基于Windows上面的Python2.x, 使用MacOS可以减少许多不必要的烦恼.

之所以经常出现字符乱码,有以下几点原因:

解决方法主要有下面几种:

文件第一行写上注释: # coding=utf-8, 告知Python解释器源代码的编码格式
所有与字符串相关的变量都设置成为Unicode类型, 比如 name = u"xiaoming"
利用Unicode编码作为桥梁转换, 先解码成为Unicode,之后编码成为你的目标编码格式. 比如一个文件时utf-8编码,但是Windows命令行是gbk编码,可以这样: filehandle.read().decode("utf-8").encode("gbk"), decode是解码成为Unicode编码(按照utf-8的规则解码, 这个过程是utf-8-->Unicode), encode是再次将字符串编码成为gbk格式(这个过程是: Unicode-->gbk),这样Windows命令行就可以正常读取出来了
使用codecs模块.