因为要接入emoji,所以对最近又参考了一些编码方面的东西。整理一下,发现编码方面的东西还真多。
1.ANSI是Windows独有的,根据操作系统区域会实际对应不同的编码:中国-GBK,美国-ASCII,其他的各有对应。
2.Unicode字符集的编码。utf-8变长,1~4字节。utf-16变长2或4个字节,虽然叫16,实际还是在2字节和4字节之间,但是没有3个字节。utf-32固定4个字节,但是很少用,因为占用内存太大。
3.Unicode是一个统一字符集,utf-8,utf-16,utf-32是针对这个字符集的编码。这个是对字符概念的新认识!!!
参考: