python编码问题分析

本文首先简要介绍编码转换的基本原理,然后针对字符串处理、文件读写的两个实例,具体分析编码问题的处理方式。

 

1、编码转换的基本原理

我们知道,只有在面对中文、日文等编码字符(以下均以中文字符为例)时,才会有编码转换问题;而英文字符串是不存在编码转换问题的,因为转来转去都不会变化。

那么分别在什么情况下编码和解码?看下面两个例子就清楚了: 

1)编码:Unicode(中文字符)-->String(字符串),当需要把中文字转换为字符串时,用编码encode。

u'中国'  #Unicode
Out[1]: u'\u4e2d\u56fd'
 
type(u'中国')
<type 'unicode'>
 
u'中国'.encode('utf-8') #编码
Out[2]: '\xe4\xb8\xad\xe5\x9b\xbd' # String
 
type('\xe4\xb8\xad\xe5\x9b\xbd')
<type 'str'>

 2)解码:String(字符串) --> Unicode(中文字符),当需要把字符串转换回中文字时,用解码decode。

'\xe4\xb8\xad\xe5\x9b\xbd'.decode('utf-8') #解码
Out[5]: u'\u4e2d\u56fd'
 
print u'\u4e2d\u56fd' # Unicode
中国
 


2、将列表中的数字、字符串、Unicode都转换为string,如何处理?

假设待处理列表为:lst = [1, 'abc', u'中国'],如果使用for循环和str()函数,会导致报错,从以下报错信息中可以发现:其实str()函数在尝试对u'中国'进行ascii编码,这当然行不通;正确的方法是单独用encode()处理Unicode字符。举例如下

 错误的处理方法:

for i in lst:
   print str(i) #错误的处理方法
#报错:UnicodeEncodeError:'ascii' codec can't encode characters in position 0-1: ordinal not inrange(128)

 正确的处理方法:

for i in lst:
   if isinstance(i, unicode): #单独处理unicode字符
       print i.encode('utf-8')
   else: #其余的情况用str()函数处理
        print str(i)
       
#1
#abc
#中国


3、将编码为A的数据,输出到编码为B的文件,如何处理? 

举例说明:假设源数据所采用编码为utf-8,希望将源数据保存到编码为gbk的文件。 

基本思路:先将utf-8格式源数据decode()回unicode字符(python底层默认编码),注意源文件编码为utf-8,所以decode()中的参数应为utf-8;然后将源文件输出到编码为gbk的文件,注意输出到文件的过程是:将文件内容encode成为我们需要的gbk字符串。 

代码如下:

content = u'中国'.encode('utf-8') #演示用:生成utf-8偏码的源数据
 
content = content.decode('utf-8') #使用utf-8格式解码,得到unicode字符
 
#源数据保存到编码为gbk的文件,相当于content.encode('gbk')后保存到文件。
path = './'
with codecs.open(path, 'wb', encoding ='gbk', errors='ignore') as f:
       f.write(content) 


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值