中文编码的介绍比较好的文章:中文编码杂谈http://blogread.cn/it/article/5253?f=wb
对java编程乱码介绍的文章:http://blog.csdn.net/azheanda/article/details/5692462
总之:ASCII码是国际码,没有办法识别中文,GB2312是中国码,没有办法和国际融入,而UTF-8是在任何环境中都能识别各种语言的编码。
编码建议:
- 只有英文:毫不犹豫选择内外编码都选择ASCII,通用且存储代价小。
- 主要存中文,对存储大小比较敏感:内外部编码根据文字使用范围选择GB2312或者GBK,自行实现使用到的字符串处理函数。
- 通用性第一,处理简单:外部选择UTF-8,内部可以使用UTF-8或者UTF-32(即wchar_t)