83 重哈希(Rehashing)

1 题目

题目:重哈希(Rehashing)
描述:哈希表容量的大小在一开始是不确定的。如果哈希表存储的元素太多(如超过容量的十分之一),我们应该将哈希表容量扩大一倍,并将所有的哈希值重新安排。给定一个哈希表,返回重哈希后的哈希表。

// 哈希函数
int hashcode(int key, int capacity) {
    return key % capacity;
}

lintcode题号——129,难度——medium

样例1:

输入:有如下一哈希表
size=3, capacity=4
[null, 21, 14, null]
       ↓    ↓
       9   null
       ↓
      null
输出:重建哈希表,将容量扩大一倍,我们将会得到
size=3, capacity=8
index:   0    1    2    3     4    5    6   7
hash : [null, 9, null, null, null, 21, 14, null]
解释:
原哈希表中有三个数字9,14,21,其中21和9共享同一个位置,因为它们有相同的哈希值1(21 % 4 = 9 % 4 = 1)。我们将它们存储在同一个链表中。新哈希表中没有冲突,它们被放在了不同的位置。

2 解决方案

2.1 思路

  哈希表的扩容,容器大小不够用的时候,新建一个容量翻倍的新容器,对原容器的所有数据重新按照哈希函数,这里是按照open hashing的方式进行,在哈希表的元素位置上放置链表,需要逐个找到原哈希表内的数值一一处理。

closed hashing:一个位置只放一个元素,冲突的元素向后寻找空位放下。(缺点:由于find时有些元素被当作寻找正确元素的桥梁,所以在元素删除时候不能直接置空,而改为标记为delete,依然充当桥梁,多次操作后可能产生很多delete位置,影响性能)
open hashing :一个位置存放一个链表,新元素插入时从表头插入,find时不需要向后寻找,只需要遍历该位置的链表即可。
哈希表容量:哈希表的空间通常远大于需要存储的序列的元素个数,哈希size >> 数组size,通常大一个数量级,当哈希表的饱和度大于1/10的时候则需要rehash。

2.3 时间复杂度

  遍历原哈希表中的所有元素,所以时间复杂度为O(n)。

2.4 空间复杂度

  空间复杂度为O(1)。

3 源码

细节:

  1. 新建一个哈希表,并resize为原哈希表size的两倍,遍历原表的所有数值按照哈希函数重新放入新表。
  2. 向新表中添加的节点最好重新new出来,不要使用原来的。

C++版本:

/**
* Definition of ListNode
* class ListNode {
* public:
*     int val;
*     ListNode *next;
*     ListNode(int val) {
*         this->val = val;
*         this->next = NULL;
*     }
* }
*/
/**
* @param hashTable: A list of The first node of linked list
* @return: A list of The first node of linked list which have twice size
*/
vector<ListNode*> rehashing(vector<ListNode*> hashTable) {
    // write your code here
    vector<ListNode *> result;
    result.resize(hashTable.size() * 2, nullptr);

    for (auto it : hashTable)
    {
        while (it != nullptr)
        {
            addNodeToNew(result, it->val);
            it = it->next;
        }
    }

    return result;
}

// 向新哈希表插入值
void addNodeToNew(vector<ListNode *> & hashTable, int val)
{
    int capacity = hashTable.size();
    int position = hashcode(val, capacity); // 根据哈希函数计算位置

    if (hashTable.at(position) == nullptr)
    {
        hashTable.at(position) = new ListNode(val);
    }
    else
    {
        addListNodeToNew(hashTable.at(position), val); // 在链表尾部插入节点

        //ListNode * curNew = new ListNode(val); // 也可以直接在链表头部插入节点
        //ListNode * temp = hashTable.at(position);
        //curNew->next = temp;
        //hashTable.at(position) = curNew;
    }
}

// 在当前链表尾部插入新节点
void addListNodeToNew(ListNode * cur, int val)
{
    if (cur->next == nullptr) // 如果没有后续节点
    {
        cur->next = new ListNode(val); // 直接插入
    }
    else
    {
        addListNodeToNew(cur->next, val); // 递归找到最后一个位置再插入
    }
}

// 哈希函数
int hashcode(int key, int capacity)
{
    int result = key % capacity;
    if (result < 0)
    {
        result += capacity;
    }
    return result;
}
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Rehashing指的是解决哈希冲突的一种方法,即在哈希表中发生冲突时,使用一个新的哈希函数再次计算哈希值,直到找到一个空槽为止。下面是一种简单的rehashing实现方法: 1. 初始化哈希表,包括表大小和哈希函数 2. 插入元素时,计算哈希值并检查该位置是否已经被占用 3. 如果该位置已经被占用,则使用新的哈希函数计算哈希值,直到找到一个空槽 4. 如果哈希表已满,则需要新分配更大的内存,并且新计算所有元素的哈希值和位置 需要注意的是,rehashing可能会导致性能下降,因为它需要新计算哈希值和移动元素。因此,为了避免频繁rehashing,通常会将哈希表的大小设置为足够大。 ### 回答2: rehashing是一种哈希表新扩展方法,用于解决哈希冲突。当哈希表中的某个槽位已经被占用,而又有新的元素要插入时,rehashing可以通过新计算哈希值,找到一个新的可用槽位来存储。 具体来说,rehashing的步骤如下: 1. 创建一个新的哈希表,大小通常是原哈希表的两倍。 2. 遍历原哈希表中的每个元素。 3. 对于每个元素,新计算它的哈希值,以确定在新哈希表中的位置。 4. 如果该位置已经被占用,可以采用一些冲突解决策略,例如线性探测法或链地址法,找到一个新的可用位置。 5. 将元素插入到新的哈希表中的对应位置。 6. 复步骤2-5,直到遍历完原哈希表中的所有元素。 7. 丢弃原哈希表,将新哈希表设为当前哈希表。 rehashing的目的是扩展哈希表的容量,以减少哈希冲突,并提高哈希表的性能。通过新计算哈希值,可以尽量保持元素的分散性,使得新哈希表中的数据分布更加均匀。 需要注意的是,rehashing操作可能会导致哈希表中的元素新排列,因此在进行rehashing时,需要确保对哈希表的访问操作暂停,以避免数据丢失或错误访问。此外,rehashing操作可能会消耗较多的时间和内存,因此需要谨慎选择rehashing的时机,以避免性能问题。 ### 回答3: rehashing是一种在散列冲突(hash collision)发生时解决冲突的方法。散列冲突是指在使用散列函数将关键字映射到散列表中时,不同的关键字可能映射到相同的散列值上。在rehashing中,当遇到冲突时,我们会通过新计算散列值并寻找另一个可用的位置来插入冲突的元素。 以下是rehashing的基本步骤: 1. 创建一个具有较大容量的散列表。这是因为rehashing不仅要存储原始的关键字-值对,还需要容纳新插入的冲突元素。 2. 使用散列函数将原始的关键字映射到散列值,并计算其在散列表中的位置。 3. 如果该位置为空,则直接将关键字-值对插入到该位置。 4. 如果该位置已经被占用,则发生了散列冲突。此时,需要新计算散列值,根据一定的逻辑找到另一个可用的位置。 5. 新计算散列值的方法可以采用线性探测(linear probing)、二次探测(quadratic probing)、链地址法(chaining)等。 6. 定位到新的可用位置后,将冲突的元素插入到该位置。 7. 这样,就成功解决了散列冲突,并完成了rehashing的过程。 需要注意的是,rehashing的效率与所选择的散列函数的好坏有很大关系。一个好的散列函数应该能够尽量减小冲突的概率,并将关键字均匀地分布在散列表中。如果选择了一种不合适的散列函数,可能会导致大量的冲突,进而降低散列表的性能。 此外,当散列表中元素的数量超过一定的阈值时,也可以进行rehashing操作,即创建一个更大的散列表,并将原来的关键字-值对新插入到新的散列表中,以提高散列的效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值