一 、字符串编码分为四种
1.ASCII码
为建立英文字符和二进制关系所制定的编码规范,代表了128个字符,包括英文字符,阿拉伯数字,西文字符以及32个控制字符。用一个字节表示具体的字符,但后来只用7位来表示字符(2^7=128)。(一共8位且最前面那位为0) (0000 0000=>0111 1111)
扩展的ASCII码
欧洲部分国家语言中又拼音,7字节不够用。一些国家利用字节中闲置的最高位编入新的符号。这些国家使用的编码体系最多可表达256个字符。同时带来的问题是:不同国家有不同字母,都是用256个字符编码代表的字母依然不一样。例如。130在发育编码中代表了é,希伯来语中代表了字母Gimel (ג),俄语编码中又代表了另一个符号。但是所有编码在0-127表示的符号是一样的,不一样的只有128-255这段。由于此问题才诞生了Unicode编码。(1000 0000 =>1111 1111)
2.Unicode符号集
一开始是UCS-2字符集 最开始可表示2^16(65536字符)
UCS-4 2^36(43亿)
包含世界所有符号,且每个符号都独一无二。比如U+0639表示阿拉伯字母Ain,U+0041表示英文大写字母A,U+4E25表示汉字“严”。
Unicode