先来看一个例子:
以"I am Chinese"为例
用ANSI储存:12 Bytes
用Unicode/UCS2储存:24 Bytes + 2 Bytes(header)
用UCS4储存:48 Bytes + 4 Bytes(header)
以"我是中国人"为例
用ANSI储存:10 Bytes
用Unicode/UCS2储存:10 Bytes + 2 Bytes(header)
用UCS4储存:20 Bytes + 4 Bytes(header)
所以,利用ANSI/Unicode编码是对内存极大的浪费,也不利于大量数据编码
UTF-8为何物?
UTF-8 是 UNICODE 的一种变长字符编码,即 RFC 3629。简单的说大字符集可以解决多种语言文本显示问题,从而实现应用国际化和本地化。
对系统来讲,UTF-8 编码可以通过屏蔽位和移位操作快速读写,排序更加容易。UTF-8 是字节顺序无关的,它的字节顺序在所有系统中都是一样的。因此 UTF-8 具有更高的性能。
常用中文字符用utf-8编码占用3个字节(大约2万多字),但超大字符集中的更大多数汉字要占4个字节(在unicode编码体系中,U+20000开始有5万多汉字)。
UTF8的好处:
数据表现:网页可以显示任何语言和文字,只要你的操作系统支持unicode,还有相应的字体,Linux下系统编码为utf8的话,可以解决很多无谓的中文问题,比如mp3播放器或者gtk2.
数据交换:无需那些gb2312和big5之间的转换程序了.
UTF8的坏处:
用的中文网站还不多,不利于数据交流.
汉字为三个字符,有时varchar不大够用.
总的来看,使用UTF-8编码形式是利大于弊的。