Hash(哈希/散列)

一、简介

        Hash是一个非常常见的用空间换时间的策略。简单来说,就是将任意长度(字节数)的输入通过特定的函数映射为固定长度(字节数)输出的算法,该输出值被称为散列值,把输入映射到输出的函数称为散列函数。

        考虑下面的问题:

                给出N个正整数,再给出M个正整数,问这M个数中的每个数,分别是否在N个数出现过,其中N,M<=10^5。(题目参考:算法笔记)

                对于这个问题,最直观的想法就是对于需要查询的每一个正整数x,遍历所有N个数,看是否有一个数和x相等。这种方法的时间复杂度是O(NM)。

                为了降低上面做法的时间复杂度,我们可以考虑用空间换时间的策略:题目中给出了N和M是小于或等于10^5,那我们不妨建立设定一个bool型的数组hashTable[100010](初始均为false),我们在输入N个正整数时,就对hashTable进行修改,例输入了一个数x,那么hashTable[x] = True,代表数组下标为x的数在N中出现过。在对M个数进行查询时只需要一个if语句即可判断,例查询正整数y,如果hashTable[y] == True,那么y就在N个数出现过。这种做法先遍历了一遍N个数,然后再遍历M个数进行查询,时间复杂度降低到了O(M+N)。代码如下:

#include<iostream>
using namespace std;
int main()
{
	bool hashTable[100010] = {false};
	int n, m, x;
	cin >> n >> m;
	for(int i = 0; i < n; ++i)
	{
		cin >> x;
		hashTable[x] = true;
	}
	for(int i = 0; i < m; ++i)
	{
		cin >> x;
		if(hashTable[x] == true)
		{
			cout << "Yes" << endl;
		}
		else
		{
			cout << "No" << endl;
		}
	}
 } 

                这种方法的特点就是将输入作为数组的下标,将数组的值作为输出。

二、冲突

        假设对于一个散列函数H,有两个值a和b,且H(a) = H(b)=c,则称a和b对于c在散列函数H下有冲突,即如果a占据了位置c,那么b就不能再使用这个位置了。

        如何处理冲突:

                1、链地址法:将所有产生相同散列值的输入存储在同一个链表(或其他数据结构)中。

                2、开放地址法:在发生冲突时,寻找下一个空闲的存储位置(该过程称为探查)

                          ·线性探查:遇到冲突时,按固定步长(比如1)向前探查,直到找到下一个空闲位置。这种方法容易产生聚集的问题,即表中的连续若干个位置都被使用过,那么在探查的时候效率就很低。

                          ·二次探查:根据平方的步长移动以减少聚集性的问题

                          ·双重散列:用另一个散列函数来确定探查步长

              3、再散列:重新设计一个散列函数或扩大散列表的容量,将数据重新分配到新的散列表中。

三、算法优势/适用场景

         Hash算法能够在平均O(1)时间内完成查找、插入和删除操作,常用于处理涉及大量数据的查找问题。

         1、散列表

               ·查找重复元素

               ·查找第一个非重复元素

               ·频次统计

         2、字符串散列

               ·子串匹配

               ·找到字符串的相同或相似部分

               ·检测回文子串

四、例题(C++,持续更新中)  

1、散列表

(1) 两数之和

题目来源:1. 两数之和 - 力扣(LeetCode)

题目描述:

        给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target  的那 两个 整数,并返回它们的数组下标。你可以假设每种输入只会对应一个答案,并且你不能使用两次相同的元素。你可以按任意顺序返回答案。

示例:   

输入:nums = [2,7,11,15], target = 9
输出:[0,1]
解释:因为 nums[0] + nums[1] == 9 ,返回 [0, 1] 。
输入:nums = [3,2,4], target = 6
输出:[1,2]
输入:nums = [3,3], target = 6
输出:[0,1]

提示:

  • 2 <= nums.length <= 104
  • -109 <= nums[i] <= 109
  • -109 <= target <= 109
  • 只会存在一个有效答案

方法一: 暴力枚举

对于数组中的每一个数x,遍历一遍数组寻找是否存在target-x。这种方法需要注意的是,对于每一个x,我们只需要寻找从x开始以后的所有数,因为在x以前的元素已经和x匹配过了。

class Solution {
public:
    vector<int> twoSum(vector<int>& nums, int target) {
        int n = nums.size();
        for (int i = 0; i < n; ++i) {
            for (int j = i + 1; j < n; ++j) {
                if (nums[i] + nums[j] == target) {
                    return {i, j};
                }
            }
        }
        return {};
    }
};

作者:力扣官方题解
链接:https://leetcode.cn/problems/two-sum/solutions/434597/liang-shu-zhi-he-by-leetcode-solution/
来源:力扣(LeetCode)
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

时间复杂度:O(N^2),空间复杂度:O(1)

方法二:散列表

map是红黑树实现的,map的find函数时间复杂度是O(logN),而unordered_map以散列代替map内部的红黑树实现,find函数时间复杂度为O(1)

class Solution {
public:
    vector<int> twoSum(vector<int>& nums, int target) {
        unordered_map<int,int> mp;//不会自动排序的map
        int length = nums.size();
        for(int i=0;i<length;++i)
        {
            // 对于数组的每一个数x,在数组中找target - x;
            auto it = mp.find(target-nums[i]); 
            if(it!=mp.end())//找到了
            {
                return {it->second, i};//返回数组下标
            }
            else//没找到
            {
                mp[nums[i]] = i;
            }
        }
        return {};
    }
};

时间复杂度:O(N),空间复杂度:O(N)

2、字符串散列

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值