python中字符串编码方式小结

         Python2中字符串的类型有两种:str和unicode,其中unicode是统一编码方式,它使得字符跟二进制是一一对应的,因此所有其他编码的encode都从unicode开始,而其他编码方式按照相应的编码decode之后也会变成unicode。而utf-8,gbk编码的字符都是str。

         从一个界面直接输入的字符串,其默认编码为系统的默认编码方式:(又或者是当前所使用的软件客户端的编码方式:比如XShell的编码方式)

>>> import sys
>>> print sys.getdefaultencoding()
ascii

 

如在windows下是ascii。

那么将其转化为unicode:

>>> s =’匆匆’
>>> s
'\xb4\xd2\xb4\xd2'
>>>
>>> s1=s.decode("gbk")
>>>
>>> s1
u'\u5306\u5306'

 

之后将其编码为utf8:

>>> S2=s1.encode("utf8")
>>>
>>> S2
'\xe5\x8c\x86\xe5\x8c\x86'

 

当python头文件中包含了语句:

#-*- coding:utf-8 -*-

 

代码中输入的文字默认为utf8编码。

 

其他参考:http://www.cnblogs.com/schut/p/8407258.html

 

转载于:https://www.cnblogs.com/zichun-zeng/p/10216948.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值