文章目录
单字节和多字节字符集:SBCS vs MBCS
单字节字符集(SBCS)
- ASCII字符集定义的是0x00 - 0x7F范围内的字符。
-
- 还有许多其他字符集,主要是欧洲字符集,它们在与0x字符集相同的范围内定义0x00 - 0x7F范围内的字符,并且还定义了0x80 - 0xFF的扩展字符集。
- 因此,一个8位的单字节字符集(SBCS)足以表示ASCII字符集以及许多欧洲语言的字符集。但是,一些非欧洲字符集(如日语汉字)包含的字符数多于单字节编码方案中可以表示的字符数,因此需要多字节字符集(MBCS)编码。
多字节字符集(MBCS)
- 多字节字符集可以包含单字节和双字节字符。因此,多字节字符串可以包含单字节和双字节字符的混合。
- 双字节多字节字符具有前导字节和跟踪字节。在特定的多字节字符集中,前导字节落在特定范围内,跟踪字节也是如此。当这些范围重叠时,可能需要评估特定上下文以确定给定字节是作为前导字节还是跟踪字节。
SBCS和MBCS的数据类型
处理字符串上下文中的多字节字节或字符的MBCS要求将多字节字符串表示为unsigned char指针。
多字节字符的每个字节可以用8位字符表示。但是,类型为char且值大于0x7F 的SBCS或MBCS单字节字符为负数。当这样的字符直接转换为int或long时,结果会被编译器进行符号扩展,因此会产生意外的结果。
- 最好将多字节字符的字节表示为8位unsigned char,以避免负的结果。
由于某些SBCS字符串处理函数采用(带符号)char *参数,因此在定义_MBCS时将产生类型不匹配编译器警告。
有三种方法可以避免此警告,按效率顺序列出:
- 在TCHAR.H中使用类型安全的内联函数。这是默认行为。
- 通过在命令行上定义_MB_MAP_DIRECT,在TCHAR.H中使用直接宏。如果执行此操作,则必须手动匹配类型。这是最快的方法,但不是类型安全的。
- 在TCHAR.H中使用类型安全的静态链接库函数。为此,请在命令行上定义常量_NO_INLINING。这是最慢的方法,但是最安全的类型。
Unicode:宽字符集
- Unicode 是 16 位字符编码、 为适用于所有语言提供足够的编码。 所有的 ASCII 字符以 unicode 格式作为加宽字符包含在内。
- 宽字符是2字节多语言字符代码。全世界现代计算中使用的任何字符,包括技术符号和特殊发布字符,都可以根据Unicode规范表示为宽字符。由包括Microsoft在内的大型联盟开发和维护,Unicode标准现已被广泛接受。
- 支持多字节字符集 (MBCS) 的窗体在所有平台上称为双字节字符集 (DBCS)。
DBCS 字符由 1 或 2 个字节构成。 某些范围的字节将留出使用用作前导字节。 前导字节指定它和以下结尾字节构成单个的 2 个字节宽字符。 在特定的多字节字符集中,前导字节位于某个范围内,尾字节也是如此。 这些范围重叠时,可能需要计算上下文以确定某个给定的字节用作前导字节还是尾字节。
宽字符的类型为wchar_t。宽字符串表示为wchar_t []数组,并由wchar_t*指针指向。
可以通过在字符前添加L前缀来将任何ASCII字符表示为宽字符