原文地址:http://www.cnblogs.com/lancidie/archive/2013/04/12/3017241.html
英文字母:
编码:GB2312;字节数 : 1
编码:GBK;字节数 : 1
编码:GB18030;字节数 : 1
编码:ISO-8859-1;字节数 : 1
编码:UTF-8;字节数 : 1
编码:UTF-16;字节数 : 4
编码:UTF-16BE;字节数 : 2
编码:UTF-16LE;字节数 : 2
中文汉字:
编码:GB2312;字节数 : 2
编码:GBK;字节数 : 2
编码:GB18030;字节数 : 2
编码:ISO-8859-1;字节数 : 1
编码:UTF-8;字节数 : 3
编码:UTF-16;字节数 : 4
编码:UTF-16BE;字节数 : 2
编码:UTF-16LE;字节数 : 2
常规来看,中文汉字在utf-8中一般是3个字节,最常见的编码方式是1110xxxx 10xxxxxx 10xxxxxx。
关于字符编码,可以参考【字符编码】彻底理解字符编码