4. 宽字符与Unicode

在C语言中,我们使用char来定义字符,占用一个字节,最多只能表示128个字符,也就是ASCII码中的字符。计算机起源于美国,char 可以表示所有的英文字符,在以英语为母语的国家完全没有问题。

但是世界上存在很多不同的语言,例如汉语、汉语、日语等有成千上万个字符,需要用多个字节来表示,称之为宽字符(Wide Character)。Unicode 是宽字符编码的一种,已经被现代计算机指定为默认的编码方式,Windows 2000以后的操作系统,包括Windows 2000、XP、Vista、Win7、Win8、Win10、Windows Phone、Windows Server 等(它们统称为 Windows NT)都从底层支持Unicode,存取效率比 char 要高。

C语言中的宽字符
在C语言中,使用wchar.h头文件中的wchar_t来定义宽字符,例如:

wchar_t ch = 'A';

wchar_t 被定义为typedef unsigned short wchar_t,和一个无符号整型一样,占用两个字节。

如果定义宽字符串,需要加前缀L,例如:

wchar_t *str = L"中国政府";

L是必须要加的,并且与字符串之间不能有空格,只有这样编译器才知道每个字符占用两个字节。

宽字符示例:

#include <stdio.h>
#include <wchar.h>

int main()
{
	char ch = 'A';
	wchar_t wch = 'A';
	char str[] = "A中国是一个美丽的国家";
	wchar_t wstr[] = L"A中国是一个美丽的国家";
	
	printf("ch=%d,wch=%d,str=%d,wstr=%d\n", sizeof(ch), sizeof(wch), sizeof(str), sizeof(wstr));

	return 0;
}

运行结果:ch=1, wch=2, str=22, wstr=24在这里插入图片描述
wstr 之所以比 str 多两个字节是因为:字符 ‘C’ 占用两个字节,字符串结束标志 ‘\0’ 也占用两个字节。

宽字符串的长度
计算ASCII字符串长度使用 strlen 函数,计算宽字符串长度使用 wcslen 函数:

#include <stdio.h>
#include <wchar.h>
#include <string.h>

int main()
{
	char str[] = "A中国是一个美丽的国家";
	wchar_t wstr[] = L"A中国是一个美丽的国家";

	printf("strlen(str)=%d,wcslen(wstr)=%d\n", strlen(str), wcslen(wstr));

	return 0;
}

运行结果:
strlen(str)=21, wcslen(wstr)=11
在这里插入图片描述

注意:wcslen 在 string.h 和 wchar.h 头文件中均有说明。

维护一个版本的源代码

在 Windows NT 以前的操作系统中,甚至包括 Windows 98,对宽字符的支持都不是很好,所以大多情况下使用ASCII编码。Windows NT 推出以后,已经从底层支持了Unicode,所以在 Windows NT 上的程序大多使用Unicode。

如果你希望程序能够在各种版本的Windows操作系统中运行,那么就需要维护两个版本的源代码,ASCII 版和 Unicode 版。ASCII 字符和 Unicode 字符的定义、使用都不一样,要想在一个版本的源代码中做兼容处理会非常困难,要做大量的工作,对程序员来说简直是噩梦。

不过,Windows 又为我们做了一件好事,已经处理了兼容性问题。它是怎么做到的呢?

例如对于字符串,ASCII 中使用 char 来定义,而 Unicode 中使用 wchar_t 来定义,并且需要添加前缀L。那么在 windows.h 头文件中(或者是它包含的其他头文件)就这样来处理:

#ifdef UNICODE
typedef wchar_t TCHAR;
#define TEXT(quote) L##quote
#else
typedef char TCHAR
#define TEXT(quote) quote
#endif

我们在源码中可以这样来使用:

TCHAR str[] = TEXT("C语言");

如果是Unicode版,也就是定义了UNICODE宏,那么上面的语句等价于:

wchar_t str[] = L"C语言";

如果是ASCII,也就是没有定义UNICODE宏,那么等价于:

char str[] = "C语言";

在Windows中,随处可见这样的处理。虽然现代操作系统都已经支持Unicode,无需再考虑与ASCII的兼容性问题,但是依然要为这些历史问题付出代价。

总结:由于各种各样的原因,我们优先使用Windows定义的数据类型、宏、结构体等,这样编写的程序兼容性较好,不用考虑ASCII和Unicode的问题。但这也带来了一个挑战,就是要熟悉Window定义的数据类型、宏、结构体等。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值