python有点_python与中文的那点事

最新推荐文章于 2022-04-30 16:20:44 发布

哈哈哈哈哈哈哈哈鸽

最新推荐文章于 2022-04-30 16:20:44 发布

阅读量63

点赞数

文章标签： python有点

本文链接：https://blog.csdn.net/weixin_36304352/article/details/113513908

版权

python与中文的那点事

在学习python的过程中，发现在python2与python3中对中文的处理有所不同，所以这篇文章就来探讨一下这些不同

1. utf-8/gbk/unicode/ASCII

我们都知道，在计算机内部所有的信息都可以被表示成二进制的字符串，每一个二进制位有1和0两种状态，因此8位的二进制数可以表示256种状态，这也被称为字节(byte)，也就是一个字节可以表示可以用来表示256种不同的状态，每一个状态都对应一个符号；上个年代美国制定了一套字符编码，对应英文字母与二进制之间的关系，做了统一的规定。这被称为ASCII，一直沿用至今。

当然设计上存在很多的编码方式，同一个二进制也可以被解释成不同的符号，因此想要打开一个文件就必须要知道它的编码方式，否则用错误的编码方式进行读取，就会产生乱码。所以说如果有一种编码，能适应世界上所有的编码规则，那么就可以解决掉所有的乱码问题。所以Unicode这套编码规则就被设计出来了，Unicode当然是一个很大的合集，可以容纳100多万个符号，每个符号的编码都不一样，但是要注意到的是，Unicode只是一个符号集，他并没有规定这个二进制如何去存储，所以有些字符是用2个字节存储，有的是三个或者四个字节进行存储，甚至更多。那么这样的话就会有一个问题，就是计算机应该如何确定到底是三位字节决定一个符号，还是两字节决定一个符号。这样造成的结果就是会产生多种的Unicode编码方式，也就是说有不同的二进制格式，所以不能进行有效的推广。

随着互联网的普及，需要一种能够统一的编码方式，utf-8就是在互联网上是用最广的一种Unicode实现的方法，其他方法还有UFT-18和UTF-32，不过现在在互联网上基本不是很通用，所以要强调的是UTF-8是Unicode的一种实现方式。UTF-8最大的一个特点就是它是一种变长的编码模式；它可以用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

另外，UTF-8是Unix下的通用编码，可以对汉字进行编码；gbk是win环境下的一种汉字编码格式。所有的UTF-8和gbk编码都得通过Unicode编码进行转换，而UTF-8和gbk之间不能相互转换，要在Unicode过个场。