UTF-16详解

最新推荐文章于 2023-11-30 14:48:20 发布

ranjio_z

最新推荐文章于 2023-11-30 14:48:20 发布

阅读量1.4k

点赞数

为了将一个WORD的UTF-16编码与两个WORD的UTF-16编码区分开来，Unicode编码的设计者将0xD800-0xDFFF保留下来，并称为代理区（Surrogate）：

D800－DB7F　║　High Surrogates ║　高位替代　　
DB80－DBFF　║　High Private Use Surrogates　║　高位专用替代　　
DC00－DFFF　║　Low Surrogates　 ║　低位替代　　

高位替代就是指这个范围的码位是两个WORD的UTF-16编码的第一个WORD。低位替代就是指这个范围的码位是两个WORD的UTF-16编码的第二个WORD。那么，高位专用替代是什么意思？我们来解答这个问题，顺便看看怎么由UTF-16编码推导Unicode编码。

如果一个字符的UTF-16编码的第一个WORD在0xDB80到0xDBFF之间，那么它的Unicode编码在什么范围内？我们知道第二个WORD的取值范围是0xDC00-0xDFFF，所以这个字符的UTF-16编码范围应该是0xDB80 0xDC00到0xDBFF 0xDFFF。我们将这个范围写成二进制：

1101101110000000 11011100 00000000 - 1101101111111111 1101111111111111 　　按照编码的相反步骤，取出高低WORD的后10位，并拼在一起，得到

1110 0000 0000 0000 0000 - 1111 1111 1111 1111 1111即0xe0000-0xfffff，按照编码的相反步骤再加上0x10000，得到0xf0000-0x10ffff。这就是UTF-16编码的第一个WORD在0xdb80到0xdbff之间的Unicode编码范围，即平面15和平面16。因为Unicode标准将平面15和平面16都作为专用区，所以0xDB80到0xDBFF之间的保留码位被称作高位专用替代。

http://blog.csdn.net/softman11/article/details/6124345

ranjio_z

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
UTF-16详解

为了将一个WORD的UTF-16编码与两个WORD的UTF-16编码区分开来，Unicode编码的设计者将0xD800-0xDFFF保留下来，并称为代理区（Surrogate）：D800－DB7F　║　High Surrogates ║　高位替代　　DB80－DBFF　║　High Private Use Surrogates　║　高位专用替代　　DC00－DFFF　║　Low
复制链接

扫一扫