//*************************************
有一个win32 API函数BOOL IsDBCSLeadByte(
BYTE TestChar // character to test
);
因为汉字都是双字节字符其中第一个字节时引导字符
这个函数就是判断第一个字节是否为引导字符。
如果是的话那么这个字符就是汉字或日文或朝鲜文
//******************************************
CString ss="你好今天真热asdfg";
CString sE,sC;
int j=0;
int k=0;
int i=0;
While(i<strlen(ss))
{
if(ss[i]>=0xa0)//全角,中文
{
sC+=ss[i];
sC+=ss[i+1];
i++;
i++;
j++;
}
else//半角,英文
{
sE+=s[i];
i++;
k++;
}
}
CString msg;
msg.Format("有%d个全角字符:%s。有%d个半角字符:%s",j,sC,k,sE);
AfxMessageBox(msg);
********************************************
GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集--基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。
下面是用C写的一个判断汉字的程序:
#include<stdio.h>
int main(void)
GB2312编码表链接:http://www.knowsky.com/resource/gb2312tbl.htm
//*************************************************************************
判断输入的是中文还是英文很简单:
1、首先,要确认数据类型是字符型。
2、英文或一些特殊字符的ASCII码小于0x7f。
3、中文是以区位码形式出现的,ASCII码大于0xa0。
比如:
#include <stdio.h>
#include<string.h>
int main()
{
char* ss="hello世界";
int i;
while(*str)
{
if((unsigned)*str>=161) {str+=2;i++;}
else str++;
}
printf("Chinese char number is:%d\n",i);
return 0;
}
//*********************************************
int is_zh_ch(char p)
{
if(~(p >> 8) == 0)
{
return 0;
}
return -1;
}
这是跟汉字的存储方式有关,西文字符用ASCII码的话,一个字节可以表示一个字符,而汉字用的是双字节表示一个汉字。
那么,为了在机器内部区分ASCII码和汉字机内码,就规定汉字的两个字节的最高为都为1.
例如:汉字“啊”的汉字机内码为B0A1H
表示成双字节是这样的10110000 10100001
本程序用的就是判断最高位的方法。
int is_zh_ch(char p)
{
if(~(p >> 8) == 0) 将p字节进行移位运算,右移8位,这样,如果移位后是0,则说明原来的字节最高位为0,不是1那么也就不是汉字的一个字节。
{
return 0; //代表不是汉字
}
return -1;
}
和文字表示方法有关。西文字符一个字节(char)就可以表示(ASCII码中包括了所有的西文字符),因为一个char只有8位,最多表示256个文字,因此而非西文字符的文字(UNICODE)全部用两个字节表示,机器内部的最小存储单位是字节,为了区分连续的两个char表示的是一个UNICODE还是两个西文字母,规定UNICODE码的两个字节的最高位都是1。
if(~(p >> 8) == 0) return 0;的意思是,将char p的符号位(char为8位,即最高位)右移,若是UNICODE则p>>8后为1111 1111,然后按位取反为0
其实原理上面说过了,UNICODE码最高位为1,即符号位为1,上面的代码和下面的等价:
int is_zh_ch(char p)
{
if(p<0) return 0;
return -1;
}
p是ASCII码表示的啊,而英文的高8位全是0,汉字的高8位不为0,所以用>>右移判断
//**********************************************************************
利用ASCII码,如果是ASCII码的值是负数(因为规定汉字的最高位是1而ASCII码的最高位是0),则为汉字~~至于字母,对照ASCII码的范围可以确定~~
另外还要注意的是:一个汉字由两个字节表示,所以所有负值个数的一半才是汉字的个数~~~
举个例子
#include<iostream>
#include<string>
using namespace std;
void main()
{
int sum=0;
char a[123];
cin.getline(a,123);
for(int i=0;a[i]!='\0';i++)
{
if(a[i]<0) sum++;
}
cout<<sum/2<<endl;
}
//---------------------------------------------------------------------------
#include <stdio.h>
#include <ctype.h>
int main(void)
{
char str[]="你好,HelloWorld!";
int i;
for (i = 0; str[i]; ) {
if (str[i]<0) i+=2; /*如果是汉字,则跳过两个字符*/
else if (isalpha(str[i])) ++i; /*如果是英语字母,则跳过一个字符*/
else { /*如果不是汉字,也不是英语字符,则输出提示信息并跳过一个字符*/
printf("%d,ERROR!\n",i+1);
++i;
}
}
return 0;
}
//---------------------------------------------------------------------------
IsDBCSLeadByte