Hash（哈希/散列）-CSDN博客

本文链接：https://blog.csdn.net/Zaczc/article/details/142639100

一、简介

Hash是一个非常常见的用空间换时间的策略。简单来说，就是将任意长度（字节数）的输入通过特定的函数映射为固定长度（字节数）输出的算法，该输出值被称为散列值，把输入映射到输出的函数称为散列函数。

考虑下面的问题：

给出N个正整数，再给出M个正整数，问这M个数中的每个数，分别是否在N个数出现过，其中N，M<=10^5。（题目参考：算法笔记）

对于这个问题，最直观的想法就是对于需要查询的每一个正整数x，遍历所有N个数，看是否有一个数和x相等。这种方法的时间复杂度是O(NM)。

为了降低上面做法的时间复杂度，我们可以考虑用空间换时间的策略：题目中给出了N和M是小于或等于10^5，那我们不妨建立设定一个bool型的数组hashTable[100010]（初始均为false），我们在输入N个正整数时，就对hashTable进行修改，例输入了一个数x，那么hashTable[x] = True，代表数组下标为x的数在N中出现过。在对M个数进行查询时只需要一个if语句即可判断，例查询正整数y，如果hashTable[y] == True，那么y就在N个数出现过。这种做法先遍历了一遍N个数，然后再遍历M个数进行查询，时间复杂度降低到了O(M+N)。代码如下：

#include<iostream>
using namespace std;
int main()
{
	bool hashTable[100010] = {false};
	int n, m, x;
	cin >> n >> m;
	for(int i = 0; i < n; ++i)
	{
		cin >> x;
		hashTable[x] = true;
	}
	for(int i = 0; i < m; ++i)
	{
		cin >> x;
		if(hashTable[x] == true)
		{
			cout << "Yes" << endl;
		}
		else
		{
			cout << "No" << endl;
		}
	}
 }

这种方法的特点就是将输入作为数组的下标，将数组的值作为输出。

二、冲突

假设对于一个散列函数H，有两个值a和b，且H(a) = H(b)=c，则称a和b对于c在散列函数H下有冲突，即如果a占据了位置c，那么b就不能再使用这个位置了。

如何处理冲突：

1、链地址法：将所有产生相同散列值的输入存储在同一个链表（或其他数据结构）中。

2、开放地址法：在发生冲突时，寻找下一个空闲的存储位置（该过程称为探查）

·线性探查：遇到冲突时，按固定步长（比如1）向前探查，直到找到下一个空闲位置。这种方法容易产生聚集的问题，即表中的连续若干个位置都被使用过，那么在探查的时候效率就很低。

·二次探查：根据平方的步长移动以减少聚集性的问题

·双重散列：用另一个散列函数来确定探查步长

3、再散列：重新设计一个散列函数或扩大散列表的容量，将数据重新分配到新的散列表中。

三、算法优势/适用场景

Hash算法能够在平均O(1)时间内完成查找、插入和删除操作，常用于处理涉及大量数据的查找问题。

1、散列表

·查找重复元素

·查找第一个非重复元素

·频次统计

2、字符串散列

·子串匹配

·找到字符串的相同或相似部分

·检测回文子串

四、例题（C++，持续更新中）

1、散列表

(1) 两数之和

题目来源：1. 两数之和 - 力扣（LeetCode）

题目描述：

给定一个整数数组 nums 和一个整数目标值 target，请你在该数组中找出 和为目标值 target 的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以按任意顺序返回答案。

示例：

输入：nums = [2,7,11,15], target = 9
输出：[0,1]
解释：因为 nums[0] + nums[1] == 9 ，返回 [0, 1] 。

输入：nums = [3,2,4], target = 6
输出：[1,2]

输入：nums = [3,3], target = 6
输出：[0,1]

提示：

2 <= nums.length <= 104
-109 <= nums[i] <= 109
-109 <= target <= 109
只会存在一个有效答案

方法一：暴力枚举

对于数组中的每一个数x，遍历一遍数组寻找是否存在target-x。这种方法需要注意的是，对于每一个x，我们只需要寻找从x开始以后的所有数，因为在x以前的元素已经和x匹配过了。

class Solution {
public:
    vector<int> twoSum(vector<int>& nums, int target) {
        int n = nums.size();
        for (int i = 0; i < n; ++i) {
            for (int j = i + 1; j < n; ++j) {
                if (nums[i] + nums[j] == target) {
                    return {i, j};
                }
            }
        }
        return {};
    }
};

作者：力扣官方题解
链接：https://leetcode.cn/problems/two-sum/solutions/434597/liang-shu-zhi-he-by-leetcode-solution/
来源：力扣（LeetCode）
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

时间复杂度：O(N^2)，空间复杂度：O(1)

方法二：散列表

map是红黑树实现的，map的find函数时间复杂度是O(logN)，而unordered_map以散列代替map内部的红黑树实现，find函数时间复杂度为O(1)

class Solution {
public:
    vector<int> twoSum(vector<int>& nums, int target) {
        unordered_map<int,int> mp;//不会自动排序的map
        int length = nums.size();
        for(int i=0;i<length;++i)
        {
            // 对于数组的每一个数x，在数组中找target - x;
            auto it = mp.find(target-nums[i]); 
            if(it!=mp.end())//找到了
            {
                return {it->second, i};//返回数组下标
            }
            else//没找到
            {
                mp[nums[i]] = i;
            }
        }
        return {};
    }
};

时间复杂度：O(N)，空间复杂度：O(N)