ctype.h和ctype.c在Linux中的实现方式与编码艺术

在C语言中,有这样几个函数:

?
1
2
3
4
5
6
7
8
9
10
11
int isalnum (c)  //检查c是否是字母或数字
int isalpha (c)  //检查c是否是字母
int iscntrl (c)  // 检查c是否控制字符(其ASCII码在0和0x1F之间,数值为 0-31)
int isdigit (c)  //检测是否是数字
int isgraph (c)  //检查c是否可显示字符(其ASCII码在ox21到ox7E之间),不包括空格
int islower (c)
int isprint(c)  //检查c是否是可打印字符(包括空格),其ASCII码在ox20到ox7E之间
int ispunct(c) //检查c是否是标点字符(不包括空格),即除字母,数字和空格以外的所有可打印字符
int isspace (c)  //检查c是否是空格符和跳格符(控制字符)或换行符
int isupper (c)
int isxdigit (c)  //检查c是否是一个16进制数学字符(即0-9,或A-F,或a-f)

一般人的实现方法是用宏定义的方法来实现这写函数,比如对于int isdigit()函数:

?
1
#define isdigit(c) ((c)>=’0’&&(c)<=’9’)

这样定义使函数简洁,使用宏定义省掉了函数调用的开销,提高了效率。

我们来看看linux系统下是如何实现的:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
#define _U  0x01    /* upper */
#define _L  0x02    /* lower */
#define _D  0x04    /* digit */
#define _C  0x08    /* cntrl */
#define _P  0x10    /* punct */
#define _S  0x20    /* white space (space/lf/tab) */
#define _X  0x40    /* hex digit */
#define _SP 0x80    /* hard space (0x20) */
 
extern unsigned char _ctype[];
extern char _ctmp;
 
#define isdigit(c) ((_ctype+1)[c]&(_D))
 
unsigned char _ctype[] = {0x00,         /* EOF */
_C,_C,_C,_C,_C,_C,_C,_C,            /* 0-7 */
_C,_C|_S,_C|_S,_C|_S,_C|_S,_C|_S,_C,_C,     /* 8-15 */
_C,_C,_C,_C,_C,_C,_C,_C,            /* 16-23 */
_C,_C,_C,_C,_C,_C,_C,_C,            /* 24-31 */
_S|_SP,_P,_P,_P,_P,_P,_P,_P,            /* 32-39 */
_P,_P,_P,_P,_P,_P,_P,_P,            /* 40-47 */
_D,_D,_D,_D,_D,_D,_D,_D,            /* 48-55 */
_D,_D,_P,_P,_P,_P,_P,_P,            /* 56-63 */
_P,_U|_X,_U|_X,_U|_X,_U|_X,_U|_X,_U|_X,_U,  /* 64-71 */
_U,_U,_U,_U,_U,_U,_U,_U,            /* 72-79 */
_U,_U,_U,_U,_U,_U,_U,_U,            /* 80-87 */
_U,_U,_U,_P,_P,_P,_P,_P,            /* 88-95 */
_P,_L|_X,_L|_X,_L|_X,_L|_X,_L|_X,_L|_X,_L,  /* 96-103 */
_L,_L,_L,_L,_L,_L,_L,_L,            /* 104-111 */
_L,_L,_L,_L,_L,_L,_L,_L,            /* 112-119 */
_L,_L,_L,_P,_P,_P,_P,_C,            /* 120-127 */
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,        /* 128-143 */
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,        /* 144-159 */
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,        /* 160-175 */
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,        /* 176-191 */
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,        /* 192-207 */
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,        /* 208-223 */
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,        /* 224-239 */
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0};       /* 240-255 */
    这种方法是用映射的方法,将   ASCII   码值映射到   _ctype   数组中的每一项。例如   字符‘0’~‘9’对应的ASCII码为48~57,映射到上面的_ctype数组相应的位置全是_D,_D&_D为真,这样就能判断出参数c的值是不是数字字符。

另外我在这里时对于#define isdigit(c) ((_ctype+1)[c]&(_D)) 函数中为什么有_ctype+1不了解,这里若_ctype+1则指向数组的第二个元素_C,为什么要这样呢?

这是因为linux大师们在定义字符时把EOF也定义进去了,而EOF的值为0,多定义了这个元素,而且把他定义在第一位,所以要跳过这一位而从第一个元素开始。还有就是NULL/0其实也是一个控制字符,所以在int
iscntrl(c)函数中如果传进实参为NULL,返回值是1的。

我在VS2008里进行试验,其代码为:

?
1
2
char word[]= "chengdu" ;
printf ( "%c" ,(word+1)[1]);
     结果显示为“e”。也就是说,(word+1)作为一个指针指向word字符串的第二个值。或者说,在数组中,数组名其实就是一个指针,其验证方法如下:
?
1
2
char word[]= "chengdu" ;
printf ( "%c" ,*(word+1));

显示结果为“h”。

        Linux中这几个函数典型的运用了空间换时间的办法,其精华之处在于,对不同种类的字符进行了分类,并使用唯一的二进制来进行标识。这些用法相信一般的人是想不出来的,而这也正体现出大师们的大师之处。看来有时间还是要多看linux内核的代码,从中领悟出大师们的编码艺术思想。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值