已知一个字串由GBK汉字和ansi编码的数字字母混合组成,编写C语言函数实现从中去掉所有ansi编码的的数字和字母(包括大小写),要求在原字串上返回结果。函数接口为:int filter_ansi(char*gbk_string)。注:汉字的GBK编码范围是0x8140 - 0xFEFE
代码中,只删除了ansi编码和数字,如果有别的非汉字字符,则保留。
区分汉字和字母、数字,就看最高位是否为1!
int filter_ansi(char* gbk_string)
{
char *p = gbk_string, *q = gbk_string;
while (*q != '\0')
{
if ((*q >= 0) && (*q <= 128)) //判断是否为asci的字符
{
if (((*q >= '0') && (*q <= '9')) //判断是否为数字或字母
|| ((*q >= 'a') && (*q <= 'z'))
|| ((*q >= 'A') && (*q <= 'Z')))
{
q++;
}
else
{
*p++ = *q++;
}
}
else
{
if (((*((unsigned short*)q)) >= 0x8140) && ((*((unsigned short*)q)) <= 0xFEFE)) //是汉字
{
*p++ = *((char*)q)++;
*p++ = *((char*)q)++;
}
else //不是汉字
{
q++;
q++;
}
}
}
*p = '\0';
return (p - gbk_string);
}