过去一直没搞懂Unicode和UTF-8之间的关系,对JavaScript中为什么无法正确表示某些四字节字符也懵懵懂懂,看了阮一峰大神的博客之后终于搞明白了,这篇是我的整理。
1、什么是Unicode字符集
我们都知道,在计算机里面,所有的内容都是以二进制的形式存在,那么可以很自然的想到,当我们要表示一个字符时,当然也是用一个二进制来表示,也就是说其实是用一个二进制数字来表示字符。但是问题是,对于使用哪个二进制表示哪个字符,每个人都有自己不同的想法,如果大家各自按照自己的想法来设置,显然不利于传输。这就像如果没有普通话,大家都说方言的话,可想而知,在交流上会有多么困难。因此,如果能有一个标准的字符集,规定了字符的二进制表示,那么我们在传输信息的时候就会更便捷。Unicode
就是这样一个字符集。但是我们先不说Unicode
,先来说说ASCII
。
ASCII
也是一个字符集,它是美国的一个字符集,算是最早一批的字符集了。ASCII
一共有128个字符,包括a-z
、A-Z
、0-9
等等常用的字符。例如a
对应的ASCII
值为97
。ASCII
字符集使用一个字节表示字符,由于只需要128个字符,因此第一位固定为0。例如上述的a
在ASCII
就使用01100001
表示。对于美国人来说,这些自然足够了,但是对其他国家来说,这是远远不够的,比如我们伟大的中文,至少有上万个字符。因此为了更广泛更便捷的传输信息,需要一个统一的,更大的字符集,Unicode
诞生了。
Unicode
团队于1988年成立,到现在也已经过去三十多年了,Unicode
字符集也在不断的壮大,甚至出现了一些表情符号。Unicode
字符集从0开始编号,如下,U+0000
表示字符null
。
U+0000 = null
上面的式子中,U+
表示这是Unicode
字符,后面的数字表示每个字符对应的码点(code point)
,通常用16进制表示。在JavaScript中可以通过\u
的方式直接使用Unicode
字符。如下:
'\u82b1' === '花'; // true
如果要在html中使用Unicode
字符,则需要使用&#
,加上Unicode
字符编码,最后别忘了分号。注意在html中使用Unicode
字符需要用十进制。如:え
的Unicode
字符编码为U+3048
,转为十进制为12306
。
<div>え</div> <!--え-->
Unicode
目前的版本是13.0,共收录了143,859 个字符。其中常用的有65536个。这么多符号,Unicode不是一次性定义的,而是分区定义。每个区可以存放65536
个(216)字符,称为一个平面(plane)。目前,一共有17个(25)平面,也就是说,整个Unicode字符集的大小现在是221。
最前面的65536
个字符位,称为基本平面
(缩写BMP
),它的码点范围是从0一直到216-1,写成16进制就是从U+0000到U+FFFF
。所有最常见的字符都放在这个平面,这是Unicode最先定义和公布的一个平面。
剩下的字符都放在辅助平面
(缩写SMP
),码点范围从U+010000一直到U+10FFFF
。
2、UTF-8和UTF-16
Unicode
只是一个字符集,要在计算机上显示还需要进行编码。因为不同的字符需要的字节数是不一样的。例如英文字母a
只需要一个字节,但是中文字符哎
就需要两个字节。计算机是个傻乎乎的东西,它只会根据某个规则去进行读取,无法自行判断两个字节到底是表示一个字符还是两个字符。因此需要对Unicode
字符进行编码,通过设置成固定格式来使得Unicode
字符具有规律。从而能够被计算机识别。UTF-8
和UTF-16
就是这样一种编码规则。
UTF-8
的编码规则是这样的:
- 对于单字节的字符,其实也就是对应
ASCII
字符集里面的字符,第一位固定为0
,后面7
位对应的是字符的码点。因此Unicode
字符集兼容ASCII
字符集。 - 对于
n字节
的字符,第一个字节
的前n位
固定为1
,第n+1
位固定为0
,其余字节都是以10
开头。除去这些固定的部分,剩余的部分对应字符的Unicode
码点。
根据上面的规则,可以得到下面的表格:
Unicode符号范围(16进制) | UTF-8编码方式(二进制) |
---|---|
0000 0000 ~ 0000 007F | 0xxxxxxx |
0000 0080 ~ 0000 07FF | 110xxxxx 10xxxxxx |
0000 0800 ~ 0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx |
0001 0000 ~ 0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx |
根据这张表,我们可以看出,如果第一个字节以0
开头,那么它就是一个单独的字符,并且位于ASCII
字符集内。如果第一个字节以1
开头,那么就可以通过判断有几个连续的1
来判断这个字符使用几个字节表示。下面以汉字哎
表示如何使用UTF-8
表示字符:
哎
的Unicode
码点是54CE
,根据上表,显然需要3个字节,因此对应的格式应该为1110xxxx 10xxxxxx 10xxxxxx
。先将码点转换成二进制:101010011001110
,然后从右往左将码点填充进去,覆盖原有的x
,剩余的x
用0
替换。可以得到哎
的UTF-8
表示法为:11100101-10010011-10001110
。这里为了表示清晰,使用-
进行了分割。转化为16进制为E5938E
。这里补充一个小知识,不保证其通用性。通常我们在发ajax
请求时,如果url
中含有中文,浏览器会自动将其编码,然后就会出现%E5%93%8E
这种东西。是不是很熟悉?其实我们可以明显看出这就是转成了UTF-8
表示法,不过是在每个字节的前面加了%
。因此当我们想要得到一个中文字符的UTF-8
编码时,可以使用encodeURI
,将得到的结果里面%
去掉即可。例如:encodeURI('哎').replace(/%/g, '');
上面讲了UTF-8
编码方式,其实编码方式有多种,接下来再简单讲讲UTF-16
。UTF-8
和UTF-16
的区别就在于UTF-8
是长度可变的,可以是一个字节表示一个字符,也可以是2个字节表示一个字符。而UTF-16
固定使用2个字节和4个字节,分别用来表示基本平面
和辅助平面
。由上文可知,基本平面
,也就是最常用的那65536
个字符,只需要2个字节(U+0000到U+FFFF
)就可以,辅助平面
则需要使用4个字节(U+010000到U+10FFFF
)。那么怎么判断4个字节是表示一个字符还是两个字符呢?这块挺有意思。在基本平面
内,从U+D800
到U+DFFF
是一个空段,即这些码点不对应任何字符。因此,这个空段可以用来映射辅助平面
的字符。而辅助平面
字符位共有220个,也就是说,对应这些字符至少需要20
个二进制位。UTF-16
将这20位拆成两半,前10位映射在U+D800
到U+DBFF
(空间大小210),称为高位(H)
,后10位映射在U+DC00
到U+DFFF
(空间大小210),称为低位(L)
。这意味着,一个辅助平面
的字符,被拆成两个基本平面
的字符表示。所以,当我们遇到两个字节,发现它的码点在U+D800到U+DBFF
之间,就可以断定,紧跟在后面的两个字节的码点,应该在U+DC00到U+DFFF
之间,这四个字节必须放在一起解读。UTF-16
还有个转码公式,可以看阮神的博客。
3、JavaScript和UTF-16
那么,JavaScript用的是哪种编码方式呢?UTF-16
?还是UTF-8
?,都不是。它用的是UCS-2
。。。这又是个什么东西?请听我慢慢道来。
上文已经谈到,Unicode
团队于1988年成立,他们野心勃勃的想搞一个统一的字符集。但是在1989年,还有一个组织也想搞一个这玩意,这个组织名字叫做UCS
。UCS
后来先上,在1990年就公布了第一套编码方法UCS-2
,使用2个字节表示已经有码点的字符。(那个时候只有一个平面,就是基本平面
,所以2个字节就够用了。)UTF-16
编码却迟至1996年7月才公布。而JavaScript在1995年设计完成,那么关系就很清楚了。好在1991年10月,两个团队就决定合并字符集,UTF-16
明确宣布是UCS-2
的超集,即基本平面
字符沿用UCS-2
编码,辅助平面
字符定义了4个字节的表示方法。
以上。