关于Python的编码，字符串、bytes字节之间的转换，计算机文本文件的编码

最新推荐文章于 2023-11-07 11:23:41 发布

旧人小表弟

最新推荐文章于 2023-11-07 11:23:41 发布

阅读量1.5k

点赞数

分类专栏：网络爬虫文章标签：字符串乱码 python java linux

本文链接：https://blog.csdn.net/weixin_43040873/article/details/108895674

版权

本文探讨了Python中字符串、字节和字节数组之间的转换，包括代码点、编码转换方法（如encode和decode）、文件读取、以及BOM处理。重点介绍了如何在Python3中使用Unicode编码，并提到了非Unicode编码如UTF-8和GBK的转换操作。

摘要由CSDN通过智能技术生成

字符串二进制编码

字节码、字符串

代码点对应的字符

计算机只认识数字，所有的字符在计算机中，都是以数字的方式存储的

print(ord('A'))   # 65  对应16进制：41    用字节码表示：b'A'   b'\x41'
print(chr(104))   # h

print(chr(202))   # Ê
print(ord('Ê'))   # 202

print(ord('我'))  # 25105
print(chr(25105))

编码转换方法：str.encode(‘编码’) 、 bytes.decode(‘解码’)

作用：字节和字符串之间转换编码解码

Python3使用的是Unicode编码

在python2或者3，字符串编码只有两类：
（1）通用的Unicode编码
（2）将Unicode转化为某种类型的编码，如UTF-8，GBK

encode()，编码
作用是，将Unicode对象编码成其他编码的字符串，编码后是字节码(bytes)

decode()，解码
作用是将其他编码的字符串、字节码(bytes)转换成Unicode编码

import chardet
查阅具体的编码类型，chardet.detect(bytes)，bytes不能是Unicode编码类型，该方法不接受本来已经是Unicode的编码的参数，会报错，因为作为统一标准，Unicode不能再被解码，如果UTF-8想转至其他非Unicode，则必须先decode到Unicode，再encode到其他非Unicode的编码

s1 = 'ABCD'
print(s1.encode('ASCII'))
# 结果是b'ABCD' 原因是ASCII码里包含ABCD了(代码点跟二进制的编码是一致的) 只要前面有b就说明它是字节

s2 = '小鸟网络'
print(s2.encode('UTF8'))        # 汉字用不了ASCII  得用UTF8、gbk、gb2312这些
print(s2.encode