字符编码表
- ASCII (ASCII编码表一个字节表示, 一个128个字符)
- Unicode (Unicode编码表固定大小的编码使用两个字节来表示字符,字母和汉字统一都是占用两个字节,这样浪费空间)
- utf-8 (编码表,大小可变的编码字母使用1个字节,汉字使用3个字节)
- gbk (可以表示汉字,而且范围广,宇母使用1个字节,汉字2个字节)
- gb2312 (可以表示汉字,gb2312 < gbk)
- big5码(繁体中文,台湾,香港)
ASCII码介绍
-
ASCI码:上个世纪60年代, 美国制定了一套字符编码(使用一个字节对英语字符与二进制位之间的关系,做了统规定,这被称为ASCII码ASCII码一共规定了128个字待的编码,只占用了一个字节的后面7位,最前面的1位统一规定为0。
特别提示:一个字节可以表示256个字待,ASCI码只用了128个学符.
-
缺点:不能表示所有字符。
Unicode码介绍
- Unicode的好处: 一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个编码,使用Unicode没有乱码的问题。
- Unicode的缺点:一个英文字母和一个汉字都占用2个字节,这对于存储空间来说是浪费。
- 2的16次方是65536,所以最多编码是65536个字符。
- 编码0- 127的字符是与ASII的编码一样比如’a’在ASCI码是0x61 ,在unicode码是ox0061,都对应97.因此Unicode码兼容ASCII码.
UTF-8编码介绍
- UTF-8是在互联网上使用最广的一种Unicode的实现方式(改进)
- UTF-8是一种变长的编码方式。它可以使用1-6个字节表示一个符号,根据不同的符号而变化字节长度。
- 使用大小可变的编码字母占1个字节,汉字占3个字节