令人头疼的字符编码的问题

现在计算机系统通用的字符编码工作方式总结如下:

1.在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码。

2.用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里;

3.编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件;

4.浏览网页的时候,服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器。

python字符串问题处理:两种字符串如何相互转换?

字符串'xxx'虽然是ASCII编码,但也可以看成是UTF-8编码,而u'xxx'则只能是Unicode编码。

A.把u‘xxx’转换为UTF-8 编码的‘xxx'’用encode('utf-8')方法:

>>> u'ABC'.encode('utf-8')
'ABC'
>>> u'中文'.encode('utf-8')
'\xe4\xb8\xad\xe6\x96\x87'

注:英文字符转换后表示的UTF-8的值和Unicode值相等(但占用的存储空间不同),

     而中文字符转换后1个Unicode字符将变为3个UTF-8字符,你看到的\xe4就是其中一个字节,因为它的值是228,没有对应的字母可以显示,所以以十六进制显示字节的数值。

B.把UTF-8编码表示的字符串'xxx'转换为Unicode字符串u'xxx'decode('utf-8')方法:

>>> 'abc'.decode('utf-8')
u'abc'
>>> '\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
u'\u4e2d\u6587'
>>> print '\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
中文

 

转载于:https://www.cnblogs.com/ppp1314520818/p/7574842.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值