Hash是在数据统计和海量数据处理中经常使用到的一个方法和数据结构。
Hash支持的外部操作:插入新数据、查找数据。(一般不支持删除数据)
Hash的使用包括两个重要部分:一个是Hash函数,一个是存储方法。
Hash函数:把数据集的一个单元转换成hashID。比如要存储一个个字符串,就需要把字符串转换为hashID。
存储方法:如何组织数据集的数据。这里涉及到一个问题就是,相同hashID的数据(冲突)该如何存储。常用的方法有数组直接存储、链地址法。
下面的一种实现的存储方法是,
数据的实际存储是按到达先后顺序连续存放在数组中。为了快速查找,又把相同hashID的数据链接起来形成链表。
node[] 数组用于存储数据。
head[] 数据用于存储每种hashID对应链表的表头,是最后插入数据的node结点地址。
如下图所示,红色线串起来的就是数据1所对应的链表。
代码如下:
#include <cstring>
const int kWordSize = 26 + 5;
const int kNodeSize = 1200 + 5;
const int kHashSize = 10001; //大质数
struct Node{
char word[kWordSize];
Node *next;
};
Node node[kNodeSize + 1];
Node* head[kHashSize + 1];
//node数组 顺序存储依次插入的数据 next结点链指向下一个同样hashID的数据
//head数组 记录每个hashID对应的最后插入的数据的node结点地址。
class Hash{
public:
Hash();
unsigned int hash(const char* str);
void insert(const char* str);
bool find(const char* str);
private:
unsigned int seed;
unsigned int size; //hash表的当前大小
};
Hash::Hash():seed(131),size(0){ //构造函数
memset(head, 0, sizeof(head));
}
unsigned int Hash::hash(const char* str){ // from string to hashID
unsigned int hash = 0;
while(*str++)
hash = hash * seed + (*str);
return (hash & 0x7FFFFFFF) % kHashSize;
}
void Hash::insert(const char* str){
unsigned int id = hash(str);
char *dst = (char*)node[size].word;
while(*dst++ = *str++); //把新插入数据拷贝到node[]
node[size].next = head[id];
head[id] = &node[size]; //node[].next存放的是同样hashID字符串的前一次存储
++size;
}
bool Hash::find(const char* str){
unsigned int id = hash(str);
for(Node* p=head[id]; p ; p=p->next){
char *dst = (char*)p->word;
int i = 0;
while(*(str+i) && *(dst+i)==*(str+i))
++i;
if(*(str+i)=='\0' && *(dst+i)=='\0')
return true;
}
return false;
}