在Python中,unicode是内存编码集,将数据从内存存储到文件中时,需要先将数据编码为其他编码集,例如:UTF-8、GBK等。
首先:
1:str.encode():将字符串转换为其raw bytes形式。
2:bytes.decode():将raw bytes转换为字符串形式。
我们可以使用相同的编码集对一个数据进行编码解码。
unicode-escape也是一种编码集,这种编码集直接将unicode内存编码存储进文件。
使用chardet.detect()可以对数据进行编码集检测,但是如果中文过少的话会不太准确。
可见:在Python中使用chardet检测文件字符编码方式_Hanlin的博客-CSDN博客_python检测文件编码方式
Reference:
https://www.cnblogs.com/leomei91/p/7685797.html