C语言宽字符

最新推荐文章于 2024-04-27 15:05:47 发布

Hello_MyDream

最新推荐文章于 2024-04-27 15:05:47 发布

阅读量3w

点赞数 1

分类专栏： c++ C语言

本文链接：https://blog.csdn.net/Hello_MyDream/article/details/106806311

版权

一. 多字节字符

1. 基于ASCII的GB2312

标准ASCII表 0 ~ 127

拓展ASCII表 0 ~ 255

GB2312 10000000 ~ 11111111(高位) + 10000000 ~ 11111111(低位)

问题：不同国家的字符集会产生乱码

2. 基于UNICODE的UTF-8

UNICODE(同一码 / 万国码)：unicode是2个字节。这一标准的2字节形式通常称作UCS-2(UnicodeCharacterSet)(原ASCII也位双字节)。然而,受制于2字节数量的限制,UCS-2只能表示最多65536个字符。Unicode的4字节形式被称为UCS-4或UTF-32,能够定义Unicode的全部扩展,最多可定义100万个以上唯一字符。

UTF-8：是针对Unicode的一种可变长度字符编码。

二. C语言中的宽字符

1. 在C语言中使用wchar_t表示宽字符，使用L告知编译器使用Unicode表。wchar_t x1 = L'中';

2. 使用(拓展ASCII码表)GB2312以\0结尾：char x[] = "中国"; 使用UniCode编码表以\0\0结尾：wchar_t x1[] = L"中国";
3. 在控制台打印

char x[] = "中国";                    

wchar_t x1[] = L"中国";                    

printf("%s\n",x);            //使用控制台默认的编码        

wprintf

最低0.47元/天解锁文章

Hello_MyDream

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
C语言宽字符

一. 多字节字符1. 基于ASCII的GB2312标准ASCII表 0 ~ 127拓展ASCII表 0 ~ 255GB2312 10000000 ~ 11111111(高位) + 10000000 ~ 11111111(低位) 问题：不同国家的字符集会产生乱码2. 基于UNICODE的UTF-8UNICODE(同一码 / 万国码)：unicode是2个字节。这一标准的2字节形式通常称作UCS-2(UnicodeCharacterSet)(原ASCII也位双字节)。然而,受..
复制链接

扫一扫