文本处理
Python的编码和解码
编码
将文件转换成二进制就是编码
ASCII编码:
只占用1个,也就是二进制8位
一共有2的8次方 256中可能,覆盖了大小写英文字母和特殊符号
注意:
中文超过了256个,需要使用中文gb2312编码,使用两个字节,2的16次方 共65526个汉字
Unicode编码:
支持上百种语言,为了解决跨语言信息传递出现乱码的情况
使用2~4字节编码,拥有136690个字符
使用Unicode编码,无论是什么文本都不会出现乱码
几乎所有系统、编程语言默认都支持Unicode
注意:
用Unicode编码存储会比ASCII编码多占用一倍的空间,为了解决这个问题需要使用UTF编码
UTF编码将一个Unicode字符便面成一个1~6字节,英文被编译成1个字节,汉字被编译成3个字节,生僻字被编译成4~6字节
解码
将二进制转换为文件就是解码