python字符编码

  1. 使用Unicode 处理国际化文本

任务:需要处理包含非ASCII字符的字符串

解决

>>> german_ae = unicode('xc3\xa4','utf8')
'''german_ae 是一个unicode字符串 根据指定的utf-8编码方式,通过解析单字节字符串xc3\xa4 创建了一个Unicode字符串 
然后就可以像处理其他字符串一样处理unicode字符串'''
>>>sentence = 'This is a ' + german_ae
>>>sentence2 = "Easy!"
>>>para = ". ",join([sentence,sentence2])
#sentence 和 para  都是unicode字符串 因为其他字符串和unicode字符串之间的操作总会产生unicode字符串

为了避免UnicodeDecodeError异常 ,开发者总结了两条规律

  • 无论何时,当你的程序接收到一个来自外部(网络、文件、或者用户输入)的文本时,应当立即创建一个unicode对象,找出最合适的编码,如查看HTTP头,或者寻找一个合适的转化方法来确定所用过的编码方式
  • 无论何时,当你的程序需要向外部(网络、文件、或者用户输入)发送文本数据时,应当探查正确编码,并用那种编码将你的文本转化成字节串(负责 Python会尝试把Unicode转化成ASCII字节串)

2 在Unicode和普通字符串之间转换

unicodestring = u'Hello world'
#将Unicode转化为普通Python字符串:"encode"
utf8string = unicodestring.encode("utf-8")
ascstring = unicodestring.encode("ascii")
#将普通Python字符串转化为Unicode:"decode"
plainstring = unicode(utf8string,"utf-8")
plainstring1 = unicode(ascstring,"ascii")

 

 

转载于:https://www.cnblogs.com/cacique/archive/2012/07/31/2617409.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值