Python-1 字符编码

最新推荐文章于 2022-04-13 22:57:17 发布

m0_38024097

最新推荐文章于 2022-04-13 22:57:17 发布

阅读量107

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/m0_38024097/article/details/114982211

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

进行文本处理时经常遇到这个问题，顺手记录下来

原理

python2 中默认编码为ASCII，但3中则时unicode。
unicode分为utf-32(4byte)，utf-16(2byte)(常用), utf-8(1~4byte)，但文件中村的还是utf-8以节省空间。
python3进行encode编码的同时会主动把string变成bytes类型，而decode解码则会把bytes类型变为string类型；进行unicode编码时，一个中文字符=2个字节，一个英文字符=一个字节，而ascii不能存中文字符。
utf-8作为unicode的优化，是可变长字符编码，所有英文字符依然按照ASCII进行存储，但是中文字符统一为3个字节。

实际转化

py2 unicode充当中间件，对gbk以及utf-8都需要首先decode为unicode然后再encode为其他编码格式
py3 默认unicode，对于字符直接encode就行，但是输入的其他格式的文本依旧需要先解码再编码

#! /usr/bin/env python
# __auther__ == luoahong
#无需声明字符编码，当然你声明也不会报错
  
s = '你好'
# 字符串s已经是unicode编码，无需decode,直接encode
s_to_gbk = s.encode("gbk")
print("----s_to_gbk----")
print(s_to_gbk)
#这边还是一样，gbk需要先解码成unicode，再编码成utf-8
gbk_to_utf8 = s_to_gbk.decode("gbk").encode("utf-8")
print("-----gbk_to_utf8---")
print(gbk_to_utf8)
#解码成unicode字符编码
utf8_decode = gbk_to_utf8.decode("utf-8")
print("-------utf8_decode----")
print(utf8_decode)
  
#输出
----s_to_gbk----
b'\xc4\xe3\xba\xc3'
-----gbk_to_utf8---
b'\xe4\xbd\xa0\xe5\xa5\xbd'
-------utf8_decode----
你好