Unicode
Unicode编码系统为表达任意语言的任意字符而设计。它使用4字节的数字来表达每个字母、符号,或者表意文字(ideograph)。每个数字代表唯一的至少在某种语言中使用的符号。(并不是所有的数字都用上了,但是总数已经超过了65535,所以2个字节的数字是不够用的。)被几种语言共用的字符通常使用相同的数字来编码,除非存在一个在理的语源学(etymological)理由使不这样做。不考虑这种情况的话,每个字符对应一个数字,每个数字对应一个字符。即不存在二义性。不再需要记录"模式"了。U+0041总是代表'A',即使这种语言没有'A'这个字符。
这句话怎么理解:Unicode是字符集,UTF-32/ UTF-16/ UTF-8是三种字符编码方案
其中utf-8是一种基于Unicode的字符集的变长字符编码方案,这种方案的好处是节省空间,可以表示Unicode字符集中的任意一个字符;但是由于是变长导致定位字符变得比较复杂。目前utf-8已经得到广泛的使用。