C++ 与 字符编码格式

ASCII码是表示字符的基本编码,由于它是8位字节编码,只能表示256个字符。事实上在早期,ASCII是7位,英文的主要字符都小于128,后来扩展到8位,用大于128的编码表示特殊图形标记。

当计算机进入中国后,面临汉字表示的问题,汉字的数目远大于256,于是中国制订GB2312编码。
GB2312是一个兼容7位ASCII的变长字节编码格式。所谓变长是指英文字符仍然使用单字节表示,而中文使用双字节表示,这样在一段中英文混排的文字当中,就有两种不同的字符字节长度。(这种方式给中英文字符处理带来很多麻烦,比如要统计一段文本的字符数,对于英文来说就是文本的字节长度,而对中英文混排就必须用专门的算法一个一个的统计)。
那么GB2312如何区分英文,中文呢?GB2312只兼容7位ASCII编码,不能表示大于128的特殊图形标记。这样英文字符都小于128。而中文则采用大于128的两个字节表示,就不会发生冲突了。当遇到一个小于128的字节时,那就是一个英文字符,当大于128时,就将当前字节以及其后跟随的字节看做一个整体,就是一个中文字符。目前在中文环境下VC中默认使用的编码方式就是GB2312以及扩展编码。GB2312的问题是只能局限于简体中文环境下使用。国际上后来制订了GBK编码,可以同时支持中、日、韩编码,属于局限于东亚的地区性编码。

随着计算机普及,人们越来越需要同时表示多种语言字符。国际上制订了Unicode编码标准,它能同时表达中文、日文、韩文、东西欧、英文等几乎所有文字。
Unicode主要分为UTF-32,UTF-16,UTF-8等类型。其中UTF-32是等长编码,每个字符都用32位4字节表示,但这样带来很大的空间浪费。UTF-16,UTF-8实际上是对UTF-32的改进压缩编码,属变长编码。特别是UTF-8是目前国际上应用最广泛的编码格式,最新的软件开发都应当以UTF-8为基础,以便支持多语言和国际化应用。

一般来说,软件中的文本分为程序文本和用户文本,比如在记事本软件中,菜单和提示框里面的文字都是在软件开发过程中就已经确定的,就是程序文本;用户文本是用户输入的数据,比如记事本中用书写的文章内容。

用户文本是用户使用软件时通过特定的输入法来输入,开发人员只需要将其保存为特定的编码格式就行了。

而程序文本是开发人员要关注的。目前的流行做法是,不推荐将文本以printf(“中文字符!n”);这样的形式直接写到代码中,因为这样以后要更改文本内容,或者支持其他语言提示时,要在整个代码中去修改这些字符串,不便于维护(有个项目,曾动用4名开发人员2周的时间,才把全部中文串替换成英文)。正常的做法是,将这些字符串集中保存在一个文本文件或其他类型资源文件中,需要输出提示时,通过字符串id的方式找到并加载对应的文本,然后再输出。
这样每次支持新的语言时,只要提供一个新的语言资源文件就可以了。

本文转载于: http://blog.csdn.net/markman101/article/details/8277272
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值