python 坑爹的字符编码

最新推荐文章于 2024-07-16 19:26:54 发布

喝可乐_耍酒疯

最新推荐文章于 2024-07-16 19:26:54 发布

阅读量136

点赞数

分类专栏： python python3 文章标签： python

本文链接：https://blog.csdn.net/hello_ufo/article/details/90775217

版权

python3 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

python

3 篇文章 0 订阅

订阅专栏

1. Unicode 的历史：

（摘自python文档Howto部分）

1968年，美国的ACSII（the American Standard Code for Information Interchange）提出了使用0-127的表示字符。但是，这没有考虑到重音字母，比如‘é’之类的。

1980年代，所有的个人电脑都是8位，可以表示0-255的所有字符。也出现了对应于不同语言的编码, 比如俄语的 KOI8编码和法语使用的Latin1编码。但是，此时一个文件就只能用一种编码。如果要混用（比如英语里混用法语），这时候单一语种的编码就出了问题。为了便于国际化，出现了Unicode编码。

最初的Unicode编码只有16bit，但是后来发现还是没法代表地球上所有语言的所有字母，所以后来扩展到了4字节, 目前是0-0x10FFFF。

但是这样的编码模式，每个字符都占用多字节，会造成很大浪费。所以，后来出现了UTF-8，UTF-16等变种。

Unicode使用16进制值表示字符，称为码点（下面例子中的第二行）。把Unicode字符串转化为二进制字节流的过程，称为编码（encoding）。

比如把一个字符串‘Python’表示为二进制字节流：

  P           y           t           h           o           n
0x50 00 00 00 79 00 00 00 74 00 00 00 68 00 00 00 6f 00 00 00 6e 00 00 00
   0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

但是这样存储到计算机内，就会占用24个字节，太浪费空间。所以一般使用UTF-8等轻量级，可变字节的编码方式。

编码一个Unicode字符串不必对每个字符都处理，如把Unicode转为ASCII的过程：

如果 Unicode码点 < 128, 则每个字符都不用再处理，还是使用原有的码点表示。
如果 Unicode码点 >= 128, 则此时就无法完成转化(如python中会抛出 UnicodeEncodeError 异常)。

UTF-8：

作为一种最常用的编码格式。是Unicode的子集。UTF代表"Unicode Transformation Format",8代表使用8位来编码（变为二进制字节流)。

UTF-8使用以下规则：
1. 如果码点 < 128, 编码为对应二进制数值。
2. 如果码点 >= 128,转化为 2到4个字节的二进制数值。每个字节的值在128-255之间。

常用格式总览：

编码格式	长度	描述
ASCII	单字节（0-127）	定义了0-127的字符代码，每个字符存储在一个8位的字节中
Latin-1	单字节（0-255）	使用一个8位字节的所有可能(0-255)来表示字符,并把(ASCII值之外的)值128-255分配给特殊字符
Unicode	多字节（目前是0-0x10FFFF）	通常用在国际化的程序中
UTF-8	可变（1-4）字节	比如：小于128的字符表示为单个字节，128-2047的表示为两个字节

2. Python2 和 Python3的编码

转自这里：Python 编码为什么那么蛋疼？ - 冯若航的回答 - 知乎

写的很好，总结一下，核心就是： python2里面的str是字节串，他Y的根本不是字符串。
在这里插入图片描述

喝可乐_耍酒疯

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 坑爹的字符编码

Unicode 的历史：（摘自python文档Howto部分）1968年，美国的ACSII（the American Standard Code for Information Interchange）提出了使用0-127的表示字符。但是，这没有考虑到重音字母，比如‘é’之类的。1980年代，所有的个人电脑都是8位，可以表示0-255的所有字符。也出现了对应于不同语言的编码, 比如俄语...
复制链接

扫一扫