LINUX处理GBK编码(C语言)

基础知识

C语言使用char类型保存字符。一个char类型字符占用一个字节。

字节是一个八位的存储单元,每一位是0或者1,所以一个包含8位的字节有2的8次幂共256种组合。每种不同组合就表示不同字符。

00000000到11111111也就是从0到255,所以,一个char类型最多就能保存256个不同字符。

ASCII 码

标准ASCII 码,也叫基础ASCII码。

ASCII码占用一个字节,使用7 位二进制数来表示所有的大写和小写字母, 数字0 到9、标点符号,以及在美式英语中使用的特殊控制字符。

00000000到01111111表示ASCII,从0开始到127,目前为止共定义了128个字符。

for(i=0;i<128;i++)
    printf("%c",i);

img
128到256,后128个称为扩展ASCII码。 一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。

汉字编码

GB2312、GBK、GB18030 是汉字字符编码方案的国家标准。 Unicode 都是全球字符编码的国际标准。

GBK和GB2312使用双字节编码,GB18030和Unicode使用可变字节编码。都兼容ASCII编码。

GBK编码空间为 0x8140~0xFEFE。

printf("result=[%c%c]",0xc4,0xe3);

打印结果

result=[] 

两个字节组成一个GBK字。

char字符型范围在-128~128,许多汉字的十六进制都超过128。
所以在打印汉字的十六进制时,系统在汉字的高位补1。十进制变成负数。

注意这块,测试打印,不是按某些博客写的,算负数的补码。而是所有高位都补1。

char sGBK=“你”;
printf("%x,%x",sGBK[0],sGBK[1]);
printf("%d,%d",sGBK[0],sGBK[1]);

打印结果

ffffffc4,ffffffe3
-60,-29

了解GBK的原理之后,就可以使用c语言处理汉字字符串。

本篇文章,如有疑问欢迎大家讨论,如有问题请大神指正。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值