有关字符的检验

120 篇文章 6 订阅

//*************************************

有一个win32 API函数BOOL IsDBCSLeadByte(
  BYTE TestChar   // character to test
);
因为汉字都是双字节字符其中第一个字节时引导字符
这个函数就是判断第一个字节是否为引导字符。
如果是的话那么这个字符就是汉字或日文或朝鲜文


//******************************************

CString ss="你好今天真热asdfg";
CString sE,sC;
int j=0;
int k=0;
int i=0;
While(i<strlen(ss))
{
    if(ss[i]>=0xa0)//全角,中文
    {
        sC+=ss[i];
        sC+=ss[i+1];
        i++;
        i++;
        j++;
    }
    else//半角,英文
    {
        sE+=s[i];
        i++;
        k++;
    }
}

CString msg;
msg.Format("有%d个全角字符:%s。有%d个半角字符:%s",j,sC,k,sE);
AfxMessageBox(msg);


********************************************

GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集--基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。
    GB2312收录简化汉字及符号、字母、日文假名等共7445个图形字符,其中汉字占6763个。GB2312规定"对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示",习惯上称第一个字节为"高字节",第二个字节为"低字节"。GB2312-80包含了大部分常用的一、二级汉字,和9区的符号。该字符集是几乎所有的中文系统和国际化的软件都支持的中文字符集,这也是最基本的中文字符集。其编码范围是高位0XA1-0XFE,低位也是0XA1-0XFE;汉字编码范围是高位0XB0-0XF7,低位是0XA1-0XFE.

 

下面是用C写的一个判断汉字的程序:

#include<stdio.h>

int main(void)
    {
       int i;
       unsigned char str[80];
       puts("input string:");
       scanf("%s",str);
       for(i=0;i<80&&str[i]!='\0';)
       {
            if(str[i]>=0xb0&&str[i]<=0xf7&&str[i+1]>=0xa1&&str[i+1]<=0xfe)
            {
                 printf("chinese character\n");
                 i+=2;
            }
            else
            {
                 printf("other character\n");
                 i++;
            }
    }
       return 0;
    }

GB2312编码表链接:http://www.knowsky.com/resource/gb2312tbl.htm

//*************************************************************************


判断输入的是中文还是英文很简单:
1、首先,要确认数据类型是字符型。
2、英文或一些特殊字符ASCII码小于0x7f。
3、中文是以区位码形式出现的,ASCII码大于0xa0。
比如:
#include <stdio.h>
#include<string.h>
int main()
{
char* ss="hello世界";
int i;
while(*str)
{
if((unsigned)*str>=161) {str+=2;i++;}
else str++;
}
printf("Chinese char number is:%d\n",i);
return 0;
}

//*********************************************

int is_zh_ch(char p)
{

if(~(p >> 8) == 0)
{
return 0;
}

return -1;
}

这是跟汉字的存储方式有关,西文字符用ASCII码的话,一个字节可以表示一个字符,而汉字用的是双字节表示一个汉字。
那么,为了在机器内部区分ASCII码和汉字机内码,就规定汉字的两个字节的最高为都为1.

例如:汉字“啊”的汉字机内码为B0A1H
表示成双字节是这样的10110000 10100001

本程序用的就是判断最高位的方法。

int is_zh_ch(char p)
{

if(~(p >> 8) == 0) 将p字节进行移位运算,右移8位,这样,如果移位后是0,则说明原来的字节最高位为0,不是1那么也就不是汉字的一个字节。
{
return 0; //代表不是汉字
}

return -1;
}


和文字表示方法有关。西文字符一个字节(char)就可以表示(ASCII码中包括了所有的西文字符),因为一个char只有8位,最多表示256个文字,因此而非西文字符的文字(UNICODE)全部用两个字节表示,机器内部的最小存储单位是字节,为了区分连续的两个char表示的是一个UNICODE还是两个西文字母,规定UNICODE码的两个字节的最高位都是1。
if(~(p >> 8) == 0) return 0;的意思是,将char p的符号位(char为8位,即最高位)右移,若是UNICODE则p>>8后为1111 1111,然后按位取反为0

其实原理上面说过了,UNICODE码最高位为1,即符号位为1,上面的代码和下面的等价:
int is_zh_ch(char p)
{
if(p<0) return 0;
return -1;
}

p是ASCII码表示的啊,而英文的高8位全是0,汉字的高8位不为0,所以用>>右移判断


//**********************************************************************

利用ASCII码,如果是ASCII码的值是负数(因为规定汉字的最高位是1而ASCII码的最高位是0),则为汉字~~至于字母,对照ASCII码的范围可以确定~~
另外还要注意的是:一个汉字由两个字节表示,所以所有负值个数的一半才是汉字的个数~~~

举个例子
#include<iostream>
#include<string>
using namespace std;
void main()
{
int sum=0;
    char a[123];
cin.getline(a,123);
for(int i=0;a[i]!='\0';i++)
{
  if(a[i]<0) sum++;
}
cout<<sum/2<<endl;
}

//---------------------------------------------------------------------------

#include <stdio.h>
#include <ctype.h>

int main(void)
{
char str[]="你好,HelloWorld!";
int i;
for (i = 0; str[i]; ) {
if (str[i]<0) i+=2; /*如果是汉字,则跳过两个字符*/
else if (isalpha(str[i])) ++i; /*如果是英语字母,则跳过一个字符*/
else { /*如果不是汉字,也不是英语字符,则输出提示信息并跳过一个字符*/
printf("%d,ERROR!\n",i+1);
++i;
}

}
return 0;
}
//---------------------------------------------------------------------------

IsDBCSLeadByte








评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值