宽字符打印的来源以及与窄字符打印的比较

目录

前言

符号的国际化

本地化头文件

 类项 

setlocale 函数

宽字符的打印

宽字符打印与普通打印

宽字符打印的优势?

宽字符打印的缺点?

printf 能否打印所有宽字符?

printf无法打印的宽字符?


前言

       在我学习打印时,对于宽字符与窄字符的打印有一些疑惑,即用 printf 便可以打印许多宽字符,那为什么要麻烦地使用 wprintf 呢,以下我结合自己所学知识以及从AI模型所得的答复对该部分知识进行分享,欢迎指正.

符号的国际化

       在过去,C语言并不适合非英语国家(地区)使用,C语言最初假定字符都是单字节的。但是这些假定并不是在世界的任何地方都适用。

        C语言字符默认是采用ASCII编码的,ASCII字符集采用的是单字节编码,且只使用了单字节中的低7 位,最高位是没有使用的,可表示为0xxxxxxxx;可以看到,ASCII字符集共包含128个字符,在英语国家中,128个字符是基本够用的,但是,在其他国家语言中,比如,在法语中,字母上方有注音符号,它就无法用 ASCII 码表示。

        于是,⼀些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的 é 的编码为130(⼆进制10000010)。这样⼀来,这些欧洲国家使用的编码体系,可以表示最多256个符号。但是,这里又出现了新的问题。不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不⼀样。比如,130在法语编码中代表了 é , 在希伯来语编码中却代表了字母Gimel,在俄语编码中又会代表另⼀个符号。但是不管怎样,所有这些编码方式中,0--127表示的符号是⼀样的,不⼀样的只是128--255的这⼀段。

        至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。⼀个字节只能表示256种符号, 肯定是不够的,就必须使用多个字节表达⼀个符号。比如,简体中文常用的编码方式是 GB2312,使用两个字节表示⼀个汉字,所以理论上最多可以表示 256 x 256 = 65536 个符号。

        后来为了使C语言适应国际化,C语言的标准中不断加入了国际化的支持。比如:加入了宽字符的类型 wchar_t 和宽字符的输入和输出函数,加入了 <locale.h> 头文件,其中提供了允许程序员针对特定地区(通常是国家或者说某种特定语言的地理区域)调整程序行为的函数。

本地化头文件

<locale.h> 中,提供了用于控制c标准库中对于不同地区会产生不一样的行为.

在标准中,依赖地区的部分(有地区差异的)有以下几项:

  • 数字量的格式
  • 货币量的格式
  • 字符集
  • 日期和时间的表示形式

要修改不同的地区差异,我们可以用到 setlocale 函数,在学习之前我们要了解类项的概念:

 类项 

       通过修改地区,程序可以改变它的行为来适应世界的不同区域。但地区的改变可能会影响库的许多部分,其中⼀部分可能是我们不希望修改的。所以C语言支持针对不同的类项进行修改,下面的⼀个宏, 指定⼀个类项:

  • LC_COLLATE:影响字符串比较函数 strcoll ( )  和 strxfrm ( ) 。
  • LC_CTYPE:影响字符处理函数的行为。
  • LC_MONETARY:影响货币格式。
  • LC_NUMERIC:影响 printf ( ) 的数字格式。
  • LC_TIME:影响时间格式 strftime ( ) 和 wcsftime ( ) 。
  • LC_ALL - 针对所有类项修改,将以上所有类别设置为给定的语言环境。 

setlocale 函数

#include<locale.h> 
char* setlocale (int category, const char* locale);

       第一个参数为类项,setlocale 函数用于修改当前地区,可以针对⼀个类项修改,也可以针对所有类项。setlocale 的第⼀个参数可以是前面说明的类项中的⼀个,那么每次只会影响⼀个类项,如果第⼀个参数是LC_ALL,就会影响所有的类项。

       第⼆个参数仅有2种可能取值:"C"(正常(英语)模式)和 " "(本地模式)。

在任意程序执行开始,都会隐藏式执行(默认自动执行)调用:

 setlocale(LC_ALL, "C");

       当地区设置为"C"时,库函数按正常方式(英语环境)执行,小数点是⼀个点。

       当程序运行起来后想改变地区,就只能显示调用 setlocale 函数,用" "作为第2个参数,调用setlocale 函数就可以切换到本地模式,这种模式下程序会适应本地环境。

        返回值为一个字符串指针,表示已经设置好的格式。如果调用失败,则返回NULL; 当第二个参数为NULL时,setlocale函数可以用来查询当前地区模式(利用返回值)。

#include<locale.h>
#include<stdio.h>
int main()
{
	char* ret = setlocale(LC_ALL, NULL);
	printf("默认本地信息:%s\n", ret);
	ret = setlocale(LC_ALL, "");
	printf("设置后本地信息:%s\n", ret);
	return 0;
}

结果为:  

宽字符的打印

       如果想在屏幕上打印宽字符,则宽字符的字面量必须加上前缀 “ L ”,否则 C 语言会把字面量当作窄字符类型处理。

       前缀“L”在单引 号前面,表示宽字符,对应 wprintf()占位符为 %lc ;在双引号前面,表示宽字符串,对应 wprintf() 的占位符为 %ls

#include <stdio.h>
#include<locale.h>
int main() {
 setlocale(LC_ALL, "");
 wchar_t ch1 = L'汉';
 wchar_t ch2 = L'字';

 wprintf(L"%lc\n", ch1);
 wprintf(L"%lc\n", ch2);

 printf("%c%c\n", 'a', 'b');

 return 0;
}

 结果:

注意:书写格式。 

宽字符打印与普通打印

以下是我对AI模型提出相关问题的对应回答,用于更好地理解宽字符打印:

宽字符打印的优势?

在C语言中,宽字符打印(通常使用`wprintf`系列函数)相对于普通打印(使用`printf`系列函数)有以下几个优点:
1. 国际化支持:宽字符打印支持Unicode字符集,这意味着它可以用来显示和处理多种语言文字,包括那些需要超过ASCII字符集(128个字符)的语言,如中文、日文和韩文等。这对于开发需要支持多语言的国际软件来说非常重要。
2. 字符宽度一致性:宽字符通常以固定宽度(如UTF-16)存储,这意味着每个字符占用相同数量的字节。这有助于在处理和显示文本时保持对齐和格式的一致性。
3. 更好的兼容性:对于一些非英语环境,宽字符能够更好地处理本地化的字符编码,如Windows上的UTF-16编码,这有助于程序在不同的语言环境中保持兼容性。
4. 直接处理复杂字符:宽字符可以直接表示并处理那些由多个字节组成的复杂字符,如表情符号或者某些特殊符号,这在处理单字节字符的`printf`中是无法直接实现的。
以下是宽字符打印的一些具体优点:
1,更广泛的字符集支持:宽字符可以表示更多的字符,如`wprintf`可以用来打印Unicode字符,而`printf`通常只能处理ASCII字符或者通过多字节编码处理其他字符集。
2,自动编码转换:在一些平台上,宽字符函数可以自动将内部编码(如UTF-16)转换为当前区域设置所需的编码,这在多语言环境中尤其有用。
3,与系统API的兼容性:在某些操作系统上,特别是Windows,许多API函数都是宽字符版本的,使用宽字符打印可以更容易地与这些API集成。

通俗来讲,宽字符打印就像是用更大的画笔来画画,而普通打印就像是使用小画笔。以下是宽字符打印相对于普通打印的一些优点:
1.支持更多语言:宽字符打印可以显示世界上几乎所有的文字,就像大画笔能画出更多的图案和文字,而小画笔可能只能画出英文字母和一些简单的符号。
2. 字符统一大小:宽字符打印的每个字符都占用相同的空间,就像每个大画笔的笔触都是一样大,这样画出来的文字整齐划一,不会出现大小不一的情况。
3. 方便国际化:如果你要做一个面向全球用户的软件,使用宽字符打印就像是用一种通用的画笔,可以在不同的语言和文化背景下画出正确的文字,而不需要为每种语言准备不同的画笔。
4.直接打印复杂字符:有些字符,比如表情符号,非常复杂,就像复杂的图案,用小画笔可能需要很多步骤才能画出来,而大画笔(宽字符打印)可以直接画出这些复杂的图案。
总的来说,宽字符打印更适合处理和显示多种语言的复杂字符,它让编程变得更加简单,尤其是当你需要编写能够在世界各地使用的软件时

宽字符打印的缺点?

当然,宽字符打印也有一些缺点,以下是一些主要的:
1. 内存使用:宽字符通常占用更多的内存。例如,在许多系统上,宽字符是16位或32位的,而传统的单字节字符只占用8位。这意味着处理宽字符文本时,程序可能需要更多的内存。
2. 性能影响:由于宽字符占用更多的内存,这可能导致在处理字符时性能有所下降。例如,在内存中移动宽字符字符串可能比移动单字节字符串慢。
3. 兼容性问题:虽然宽字符支持国际化,但不是所有的系统和库都完全支持宽字符。在一些旧的系统或库中,可能需要额外的配置或代码来确保宽字符能够正确工作。
4. 更复杂的编码:处理宽字符时,可能需要处理更复杂的编码问题,如UTF-16的代理对(surrogate pairs),这可能会增加编程的复杂性。
5. 文本处理函数的限制:与单字节字符相比,宽字符的文本处理函数可能不那么丰富或灵活。这意味着某些文本处理任务可能需要更多的代码来实现。
6. 文件和API兼容性:在使用宽字符与文件系统或外部API交互时,可能会遇到兼容性问题。例如,一些文件系统或网络协议可能不支持宽字符。
7. 国际化支持不完美:虽然宽字符支持多语言,但并不是所有的国际化问题都能通过使用宽字符来解决。例如,文本的方向(从左到右或从右到左)、语言的特殊排版规则等,这些都需要更复杂的国际化支持。
8. 混合编码问题:在同一个程序中混合使用单字节字符和宽字符可能会导致编码混乱,特别是在字符串拼接和转换时。
总的来说,尽管宽字符打印在处理多语言文本方面有很多优势,但在实际应用中也需要权衡其带来的缺点。开发者需要根据具体的应用场景和需求来决定是否使用宽字符。

printf 能否打印所有宽字符?

       不,使用标准的 `printf` 函数无法直接打印所有的宽字符。`printf` 是为处理单字节字符设计的,它通常只能正确处理 ASCII 字符集或者程序当前区域设置(locale)定义的单字节编码字符。
宽字符通常指的是使用 Unicode 编码的字符,可能包括那些需要多个字节来表示的字符。例如,UTF-16 编码的宽字符可能需要两个或四个字节来表示一个字符(考虑到代理对的情况)。
要打印宽字符,你应该使用宽字符版本的打印函数,如:

  • wprintf:用于宽字符的格式化输出。
  • fwprintf:用于将格式化的宽字符输出到文件。
  • swprintf:用于将格式化的宽字符输出到宽字符字符串。

以下是一个使用 `wprintf` 打印宽字符的例子:

#include <stdio.h>
#include <wchar.h>
#include <locale.h>
int main() {
    setlocale(LC_ALL, ""); // 设置当前的区域设置,以便正确处理宽字符
    wchar_t wc = L'汉'; // 宽字符字面量
    wprintf(L"宽字符: %lc\n", wc); // 使用 wprintf 打印宽字符
    return 0;
}


在这个例子中,`setlocale` 函数被用来设置程序的区域设置,这对于宽字符的正确显示是必要的。`wprintf` 用于打印宽字符。
如果你尝试使用 `printf` 来打印宽字符,可能会得到不可预知的结果,因为 `printf` 不会正确地解释宽字符编码。在某些情况下,如果宽字符恰好是 ASCII 范围内的字符,它可能会被正确地打印,但这不是一种可靠的做法。对于非 ASCII 范围的宽字符,`printf` 可能无法正确地解释它们,导致输出乱码或不正确的行为

printf无法打印的宽字符?

        `printf` 不能正确打印的宽字符例子是任何超出 ASCII 范围的 Unicode 字符。例如,中文字符“汉”在 Unicode 中对应的代码点是 U+6C49。如果我们尝试使用 `printf` 来直接打印这个字符,结果将不会是预期的中文字符,而可能是乱码或者其他不可预知的输出。
以下是一个尝试使用 `printf` 打印宽字符的代码(错误)示例:

#include <stdio.h>
int main() {
    // 尝试使用 printf 打印宽字符(中文字符“汉”)
    // 注意:以下代码是错误的,因为它试图使用 printf 打印宽字符
    unsigned int chinese_char_code = 0x6C49; // Unicode 代码点 U+6C49
    printf("尝试打印宽字符: %c\n", chinese_char_code);
    return 0;
}

在上面的代码中,我们尝试将 Unicode 代码点 U+6C49 直接传递给 `printf` 的 `%c` 格式说明符。然而,`printf` 期望一个 `int` 值,该值应当是 ASCII 字符集中的字符,或者是在当前区域设置下可打印的单字节字符。由于“汉”字在 Unicode 中的代码点超出了 ASCII 范围,`printf` 无法正确地将其解释为对应的宽字符,因此输出将是错误的。
正确的做法是使用 `wprintf` 和宽字符类型 `wchar_t` 来打印这样的字符:

#include <stdio.h>
#include <wchar.h>
#include <locale.h>
int main() {
    setlocale(LC_ALL, ""); // 设置区域设置以支持宽字符
    wchar_t wc = L'汉'; // 宽字符字面量
    wprintf(L"宽字符: %lc\n", wc); // 使用 wprintf 打印宽字符
    return 0;
}

在这段代码中,我们首先设置了区域设置,然后使用 `wprintf` 和 `%lc` 格式说明符来正确地打印宽字符。

  • 23
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值