觉得这篇文章对你有帮助的话,就留个赞赞吧~🙊🙊
1、字符编码表简述
- 符 和 码值的对应关系是通过字符编码表决定的。
ASCII
(ASCII 编码表 一个字节表示,共128个字符)Unicode
(Unicode 编码表 固定大小的编码 使用两个字节来表示字符,字母和汉字统一都是占用两个字节,这样浪费空间)utf-8
(大小可变的编码,字母使用1个字节,汉字使用3个字节)gbk
(可以表示汉字,而且范围广,字母使用1个字节,汉字2个字节)gb2312
(可以表示汉字,gb2312 < gbk)big5 码
(繁体中文,台湾,香港)
1、ASCII码表总共可以包含256个字符,但对于只用字母的美国人来说完全够用,所以ASCII码表里只有128个字符。
2、Unicode码表字母占2个字节容易造成浪费。
3、通常使用utf-8的编码方式,字母只占1个字节不会造成浪费,而汉字占3个字节,则所能使用的汉字更广泛了。
4、gbk汉字占2个字节,所以比utf-8所能使用汉字少。
2、ASCII编码介绍
-
ASCII编码是
一个字节
。 -
ASCII是单字节编码,
无法表示中文
。 -
用8位二进制来编码
英文字母
和其他字符
。 -
ASCII码:上个世纪60年代,
美国制定
了一套字符编码(使用一个字节),对英语字符与二进制位之间的关系,做了统一的规定,这被称为ASCII码。 -
ASCII码一共规定了128个字符的编码
,只占用了一个字节的后面7位,最前面的一位统一规定为0。 -
一个字节可以表示256个字符,而对于美国人来说128个字符对他们完全够用,因此ASCII码只用了128个字符。
缺点:不能表示所有字符
3、Unicode编码介绍
-
Unicode编码是
两个字节
。 -
比ASCII编码需要多一倍的存储空间。
-
使用Unicode 没有乱码问题。
-
Unicode编码为世界上所有字符都分配了一个唯一的数字编号
。· -
2的16次方是 65536 ,所以最多是65536个字符。
-
编码0-127的字符是与ASCII编码一样。比如 ’ a ’ 在ASCII是0x61,在Unicode码是0x0061,都对应97,因此
Unicode码兼容ASCII码
。
缺点:一个英文字母和一个汉字都占用了2个字符,这对于存储空间来说是浪费。
🦕🦕ASCII码表和Unicode码表的联系:
- Unicode码表包含了ASCII码表
- ASCII码表中编码为0-127对应的字符与Unicode码一样
4、UTF-8编码介绍
- 使用大小可变的编码
字母占一个字节,汉字占3个字节
。 - UTF-8是在互联网上使用最广的一种Unicode 的实现方式 (改进)
- UTF-8是一种
变长的编码方式
。它可以使用1-6个字节表示一个字符,根据不同的符号而变化字节长度
。 - 不同国家使用的语言不同,所需使用的符号总量也不同,各个国家地区可以根据所需选择合适的字节长度,因此UTF-8的使用会更广泛。