本章主要讲的是原子(atom)。原子是一个指针,指向一个唯一的、不可变的序列,序列中包含零或多个字节(字节值任意)。大多数原子都指向0结尾字符串,但也可以是指向任意字节序列的指针。
1、优点
原子的一个优点是,只通过比较两个指针,即可比较两个字节序列是否相等。使用原子的另一个优点是节省空间,因为任一序列都只会出现一次。
2、对原子表来说,选择哈希表作为数据结构是显然的。这里的哈希表是一个指针数组,每个指针指向一个链表,链表中的每个表项保存了一个原子。
static struct atom
{
struct atom *link;
int len;
char *str;
}*buckets[2048];
发源自buckets[i]的链表保存了那些散列到i的原子。链表项的link字段指向链表中下一个表项,len字段保存了字节序列的长度,而str字段指向序列本身。
3、NELEMS的定义说明了一种常见的C语言惯用法:数组中元素的数目,就是数组的大小除以每个数组元素的大小。sizeof是一个编译时运算符,因此该计算只适用于在编译时大小已知的数组。
#define NELEMS(x) ((sizeof(x)/(sizeof((x)[0])))
4、Atom_length无法散列其参数,因为其长度是未知的。但该参数必须是一个原子,因此Atom_length只需遍历buckets中的各个链表,一一比较指针即可。如果找到该原子,则返回其长度。
int Atom_length(const char *str)
{
struct atom *p;
int i;
assert(str);
for(i=0;i<NELEMS(buckets);i++)
for(p=buckets[i];p;p=p->link)
if(p->str == str)
return p->len;
assert(0); /*这里实现了一个已检查的运行时错误,即Atom_length必须只对原子调用,而不能对指向其他字符串的指针进行调用。它也用于一些所谓“不可能发生”的情况*/
return 0;
}