python中的字符与编码

最新推荐文章于 2024-10-11 16:17:26 发布

ganzr

最新推荐文章于 2024-10-11 16:17:26 发布

阅读量346

点赞数 1

分类专栏： python 文章标签： python str unicode

本文链接：https://blog.csdn.net/ganzr/article/details/85780319

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

相信不仅仅是python学习者，所有需要处理字符与二进制流数据的同学都遇到过字符与编码的问题，下面我会给出我的理解。

1、首先什么是字符，什么是编码

我的理解是字符是语言层面的，不如a,b,c这些是英文字符，“中”，“本”，“聪”这种是中文字符，这些都是人脑中处理的语言的基本元素。那什么是编码呢，编码就是计算机处理的基本元素，也就是比特0和1，编码就是将字符转化成不同的比特流。

好了，问题来了，每个字符应该编码成多长的比特流？是不是每个字符需要用同样长度的比特表示？能不能用变长码表示？

答案是这取决于字符集的多少

比如，ASCII中只有英文字符和一些标点符号以及空格键等特殊符号，只需要8位比特就足够表示了（2^8=256个字符）

然而，这遇到其他语言的字符就不行了，比如中文，中文这种象形文字何止256个？所以8位已经不够了，需要用更多的位数的比特来表示，也就是常见的GBK编码。

那有没有一种同意的编码能囊括所有语言的字符呢？有，那就是unicode.

在unicode中，所有的字符都用两个字节来表示。

那有没有变长码呢？有，比如utf-8

所谓变长码就是不同的字符用不同长度的比特流表示。

2、python中的字符与编码

依旧用解答问题的方式来阐述

1）python中用的是什么编码？

我们知道，python首先需要从*.py文件中将字符读入，那么python该用什么样的编码方式读入该文件呢？答案是文件的存储的编码方式就是python读入内存中的时候的编码方式，比如用的是utf-8（利于存储），那么就按utf-8的编码方式读入。读入之后呢？如何表示？这在python2.*与python3.*中是不一样的。python2中的字符串的数据类型是str（byte类型），也就是说是什么编码方式读入的就怎样在内存中表示，如下图