文本文件的编码方式
文本文件存储的内容是基于字符编码的文件,常见的编码有ASCII编码、UNICODE编码等
- Python2.x默认使用ASCII编码
- Python3.x默认使用UTF-8编码
ASCII编码和UNICODE编码
ASCII编码
- 计算机中只有256个ASCII字符
- 一个ASCII在内存中占用1个字节的空间
- 8个0/1的排列组合方式一共有256种,也就是2^8
UTF-8编码格式
- 计算机中使用1-6个字节来标识一个UTF-8字符,涵盖了地球上几乎所有地区的文字
- 大多数汉字会使用3个字节表示
- UTF-8是UNICODE编码的一种编码格式