python编码详解_Python编码详解

最新推荐文章于 2022-04-03 15:18:24 发布

非著名程序员mkq

最新推荐文章于 2022-04-03 15:18:24 发布

阅读量472

点赞数

文章标签： python编码详解

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28949355/article/details/113674873

版权

字符串编码简介

计算机只能处理数字，文本转换为数字才能处理。计算机中8个bit作为一个字节，所以一个字节能表示最大的数字就是255

计算机是美国人发明的，所以一个字节可以表示所有字符了，所以ASCII(一个字节)编码就成为美国人的标准编码

但是ASCII处理中文明显是不够的，中文不止255个汉字，所以中国制了GB2312编码，用两个字节表示一个汉字。GB2312还把ASCII包含进去了，同理，日文，韩文等等上百个国家为了解决这个问题就都发展了一套字节的编码，标准就越来越多，如果出现多种语言混合显示就一定会出现乱码

于是unicode出现了，将所有语言统一到一套编码里

看一下ASCI和unicode编码:

字母A 用ASCI编码十进制是65,二进制0100 0001

汉字“中”已近超出了ASCII编码的范围，用unicode编码是20013 二进制是01001110 00101101

A用unicode编码只需要前面补0二进制是00000000 0100 0001

乱码问题解决了，但是如果内容全是英文，unicode编码比ASCI需要多一倍的存储空间，同时如果传输需要多一倍的传输。

所以出现了可变长的编码“utf-8”,把英文变长一个字节，汉字3个字节。特别生僻的变成4-6字节，如果传输大量的英文，utf8作用就很明显了

一、windows下环境演示

C:\Users\zhangyy49>python

Python 2.7.12 (v2.7.12:d33e0cf91556, Jun 27 2016, 15:24:40) [MSC v.1500 64 bit (AMD64)] on win32

Type "help", "copyright", "credits" or "license" for more information.

>>> test_str = "abc"

>>> test_unicode = u"abc"

>>> test_str.encode("utf8")

'abc'

>>> test_unicode.encode("utf8")

'abc'

>>> test_str2 = "中文"

>>> test_unicode2 = u"中文"

# python字符串在内存中是用unicode编码的

>>> test_str2.encode("utf8")

Traceback (most recent call last):

File "", line 1, in

UnicodeDecodeError: 'ascii' codec can't decode byte 0xd6 in position 0: ordinal not in range(128)

>>> test_unicode2.encode("utf8")

'\xe4\xb8\xad\xe6\x96\x87'

# decode作用是为了让其它编码格式转变为unicode编码，windows下test_str2编码是gb2312

>>> test_str2.decode("gb2312").encode("utf8")

'\xe4\xb8\xad\xe6\x96\x87'

>>>

二、linux下环境演示

[root@slave2 ~]# python

Python 2.7.5 (default, Aug 4 2017, 00:39:18)

[GCC 4.8.5 20150623 (Red Hat 4.8.5-16)] on linux2

Type "help", "copyright", "credits" or "license" for more information.

>>> test_str = "中文"

# linux下默认test_str的编码是utf8编码

>>> test_str.decode("utf8").encode("utf8")

'\xe4\xb8\xad\xe6\x96\x87'

>>> test_str.encode("utf8")

Traceback (most recent call last):

File "", line 1, in

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

>>> import sys

>>> sys.getdefaultencoding()

'ascii'

encode必须保证前面是unicode字符串，如果直接对字符串test_str直接encode的话，会先调用默认的编码进行decode，而默认的编码的是ascii，对中文转换成ascii会报错，所以就会出现如上错误

非著名程序员mkq

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python编码详解_Python编码详解

字符串编码简介计算机只能处理数字，文本转换为数字才能处理。计算机中8个bit作为一个字节，所以一个字节能表示最大的数字就是255计算机是美国人发明的，所以一个字节可以表示所有字符了，所以ASCII(一个字节)编码就成为美国人的标准编码但是ASCII处理中文明显是不够的，中文不止255个汉字，所以中国制了GB2312编码，用两个字节表示一个汉字。GB2312还把ASCII包含进去了，同理，日文，韩文...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。