UTF-8 是1byte~4byte的变换,汉字UTF-8存储的,一个汉字占3byte
GBK 汉字GBK存储的,一个汉字占2byte
UTF-16BE 汉字、字母都是2byte
UTF8和UTF16都是uincode
"中国ABC"分别对应的编码,按顺序gbk,utf-8,utf-16be
11010110 11010000 10111001 11111010 01000001 01000010 01000011
注释:11010110 11010000 中
10111001 11111010 国
01000001 A
01000010 B
01000011 C
11100100 10111000 10101101 11100101 10011011 10111101 01000001 01000010 01000011
注释:11100100 10111000 10101101 中
11100101 10011011 10111101 国
01000001 A
01000010 B
01000011 C
01001110 00101101 01010110 11111101 00000000 01000001 00000000 01000010 00000000 01000011
注释:01001110 00101101 中
01010110 11111101 国
00000000 01000001 A
00000000 01000010 B
00000000 01000011 C
同样:utf-8和utf-16be是可以转换的
11100100 10111000 10101101 11100101 10011011 10111101 01000001 01000010 01000011
01001110 00101101 01010110 11111101 00000000 01000001 00000000 01000010 00000000 01000011
如果一个汉字是utf-8的,是3byte。去掉第一个byte的前4位1110
第二个byte的前2位10
第三个byte的前2位10
按照颜色对比。下面的同理。