GBK全名为汉字内码扩展规范,英文名Chinese Internal Code Specification。K 即是“扩展”所对应的汉语拼音(KuoZhan)中“扩”字的声母。
GBK 亦采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。
下面分析如何正确的显示一段字母和汉字混合的字符串。同过上面的分析可以得出,如果是汉字,则首字节在81-FE 之间,其最高位为1,所以补码小于0,此时需连续显示两个字节。如果是字符,则首字节在00-7F之间,其最高位为0,所以补码大于等于0,此时只须显示一个字节。以下给出显示汉字和字母的C++源程序
#include <stdio.h>
#include <string.h>
#include <iostream>
using namespace std;
char *str="啊你我他abcde是adf否哈哈dfadfa";
int main()
{
int i=0;
cout<<strlen(str)<<endl;
while (str[i]!='/0')
{
if (str[i]<0)
{
cout<<str[i]<<str[i+1];
i++;
}
else
{
cout<<str[i];
}
i++;
}
return 0;
}
//edit by hh, compile by g++