Unicode:
Unicode码是由Unicode协会建立的一种编码方案,它支持使用世界各种语言所书写的文本的交换、处理和显示。它是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制应该如何储存。一个16位Unicode码占两个字节,用以 \u 开头的4位十六进制数表示,范围从‘\u0000’到‘\uFFFF’,有一百一十多万。
UTF8:UTF8是Unicode的实现方式之一,它是一种变长的编码方式,它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度,UTF8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符,UTF-8编码与ASCII编码完全相同。
Unicode 编号范围与对应的 UTF-8 的二进制格式*:
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx