Hash表的一种实现

最新推荐文章于 2022-11-06 03:41:10 发布

ojshilu

最新推荐文章于 2022-11-06 03:41:10 发布

阅读量906

点赞数

分类专栏：数据结构高效计算海量数据处理

本文链接：https://blog.csdn.net/ojshilu/article/details/19325409

版权

高效计算同时被 3 个专栏收录

51 篇文章 0 订阅

订阅专栏

数据结构

21 篇文章 0 订阅

订阅专栏

海量数据处理

7 篇文章 0 订阅

订阅专栏

Hash是在数据统计和海量数据处理中经常使用到的一个方法和数据结构。

Hash支持的外部操作：插入新数据、查找数据。（一般不支持删除数据）

Hash的使用包括两个重要部分：一个是Hash函数，一个是存储方法。

Hash函数：把数据集的一个单元转换成hashID。比如要存储一个个字符串，就需要把字符串转换为hashID。

存储方法：如何组织数据集的数据。这里涉及到一个问题就是，相同hashID的数据（冲突）该如何存储。常用的方法有数组直接存储、链地址法。

下面的一种实现的存储方法是，

数据的实际存储是按到达先后顺序连续存放在数组中。为了快速查找，又把相同hashID的数据链接起来形成链表。

node[] 数组用于存储数据。

head[] 数据用于存储每种hashID对应链表的表头，是最后插入数据的node结点地址。

如下图所示，红色线串起来的就是数据1所对应的链表。

代码如下：

#include <cstring>

const int kWordSize = 26 + 5;
const int kNodeSize = 1200 + 5;
const int kHashSize = 10001; //大质数

struct Node{
    char word[kWordSize];
    Node *next;
};
Node node[kNodeSize + 1];
Node* head[kHashSize + 1];
//node数组 顺序存储依次插入的数据 next结点链指向下一个同样hashID的数据 
//head数组 记录每个hashID对应的最后插入的数据的node结点地址。


class Hash{
public:
    Hash();
    unsigned int hash(const char* str);
    void insert(const char* str);
    bool find(const char* str);
private:
    unsigned int seed; 
    unsigned int size; //hash表的当前大小
};

Hash::Hash():seed(131),size(0){ //构造函数
    memset(head, 0, sizeof(head));
}

unsigned int Hash::hash(const char* str){ // from string to hashID
    unsigned int hash = 0;
    while(*str++)
        hash = hash * seed + (*str);
    return (hash & 0x7FFFFFFF) % kHashSize;
}

void Hash::insert(const char* str){
    unsigned int id = hash(str);
    char *dst = (char*)node[size].word;
    while(*dst++ = *str++); //把新插入数据拷贝到node[]
    node[size].next = head[id];
    head[id] = &node[size]; //node[].next存放的是同样hashID字符串的前一次存储
    ++size;
}

bool Hash::find(const char* str){
    unsigned int id = hash(str);
    for(Node* p=head[id]; p ; p=p->next){
        char *dst = (char*)p->word;
        int i = 0;
        while(*(str+i) && *(dst+i)==*(str+i))
            ++i;
        if(*(str+i)=='\0' && *(dst+i)=='\0')
            return true;
    }
    return false;
}

ojshilu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hash表的一种实现

Hash是在数据统计和海量数据处理中经常使用到的一个方法和数据结构。Hash支持的外部操作：插入新数据、查找数据。（一般不支持删除数据）Hash的使用包括两个重要部分：一个是Hash函数，一个是存储方法。Hash函数：把数据集的一个单元转换成hashID。比如要存储一个个字符串，就需要把字符串转换为hashID。存储方法：如何组织数据集的数据。这里涉及到一个问题就是，相同h
复制链接

扫一扫