1.字符编码:
因为计算器是美国人发明的,早期的字符编码只有127个字符
早期:ASCII码,一个字节
之后,各国为了适应各国的语言分别出现了很多字符编码
比如:中国的是:GB2312,一般至少两个字节
再之后,为了统一编码格式,防止各类编码冲突,出现了Unicode编码格式,
最后,因为英文只需要一个字节存储,中文等其他语言需要两个字节,为了缩小传输时间和占用的硬盘资源,出现了
UTF-8编码:在内存里按Unicode编码存储,传输和硬盘存储的时候就按照UTF-8编码
2…python的字符串
python的字符串类型是str,在内存中,一个字符对应若干字节,若需要在网络上传输或者保存在磁盘中,则需要把str变为
以字节为单位的bytes,可以使用encode()
反过来,当从网络或硬盘上读取了字节流,那么读到的数据是bytes,需要把bytes变为str,可以使用decode()函数
由于python源代码也是一个文本文件,所以当源代码里包含中文的时候,在保存源码时,就务必要指定UTF-8编码。
当读取源代码时,为了让它按UTF-8编码读取,通常会在文件开头加入两行代码
#!/user/bin/env python3
# -*-coding: utf-8 -*`-
第一行告诉是个python程序,第二行时告诉是UTF-8编码读取,告诉了之后,自己需要检查是否按UTF-8打开的,若不是,则需要改
Encode in UTF-8 without BOM