前段时间开辟了Linux办公环境,慢慢开始整理项目研究的进展情况,遂将相应资料整理存档,以备随时查找使用。
声明:以下内容为将自身工作内容结合来自互联网的相关资料进行实践和整理,并非完全原创,如有侵权请联系处理。
Linux平台:LinuxMint 19.1 Tessa
Python平台:Python 2.7.15
————————————————
1 编码字符集简介:
1.1 ASCII
American Standard Code for Information Interchange
8-bit 编码,单字节(single byte),共有127个符号。0x20(127) 以下的为“控制码”;0x20(128)以后的为制表符,也称为ASCII “扩展字符集”。
1.2 GB2312
对 ASCII 的中文扩展,在去掉 ASCII “扩展字符集”的基础上,增加约7000个汉字字符。
16-bit 编码,双字节(double byte),即所称的全角字符(127以下的半角字符),用双字节表示汉字,高字节0xA1~0xF7,低字节0xA1~0xFE。
1.3 GBK
对GB2312的重编与扩展
16-bit 编码,双字节,只要高位大127的双字节即认为是汉字字符。
GBK18030,对GBK的扩展,追加几千个我国少数民族字符。
1.4 Unicode
Universal Multiple-Octet Coded Charac