注意:
在中文操作系统上,ANSI(美国国家标准学会、AMERICAN NATIONAL STANDARDS INSTITUTE: ANSI)编码即为 GBK;
在英文操 作系统上,ANSI 编码即为 ISO-8859-1。
1.常用编码格式
- ASCII (ASCII编码表一个字节表示,一个128个字符,实际上一个字节可以表示256个字符,只用128个)
- Unicode (Unicode编码表固定大小的编码使用两个字节来表示字符,字母和汉字统一都是占用两个字节这样浪费空间)
- utf-8(编码表,大小可变的编码字母使用1个字节,汉字使用3个字节)
- gbk(可以表示汉字,而且范围广,字母使用1个字节,汉字2个字节)
2.ASCII
缺点:不能表示所有字符。
ASCII码:上个世纪60年代,美国制定了一套字符编码(使用一个字),对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码。ASCII码一共规定了128个字符的编码,只占用了一个字节的后面七位,最前面的1位统一规定为0。
特别提示:一个字节可以表示256个字符,ASCII码只用了128个字符
看一个完整的ASCII码表(可以自行百度)
3.Unicode
- Unicode的好处:一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,使用Unicode没有乱码的问题。
- Unicode的缺点:一个英文字母和一个汉字都占用2个字节,这对于存储空间来说是浪费。
- 2的16次方是65536,所以最多编码是65536个字符。
- 编码0-127的字符是与ASCII的编码一样.比如 'a'在ASCII码是Ox61,在unicode码是ox0061,都对应97.因此 Unicode码兼容ASCII码.
4.UTF-8
- UTF-8是在互联网上使用最广的一种 Unicode的实现方式(改进)
- UTF-8是一种变长的编码方式。它可以使用1-6个字节表示一个符号,根据不同的符号而变化字节长度。
- 使用大小可变的编码字母占1个字节,汉字占3个字节
5.GBK
6.ISO-8859-1
7.编码与解码
8.字符编码
就是一套自然语言的字符与二进制数之间进行编码解码的对应规则。
9.字符集
也叫编码表。是一个系统支持的所有字符的集合,包括各国家文字、标点符 号、图形符号、数字等。