一、简介
Hash是一个非常常见的用空间换时间的策略。简单来说,就是将任意长度(字节数)的输入通过特定的函数映射为固定长度(字节数)输出的算法,该输出值被称为散列值,把输入映射到输出的函数称为散列函数。
考虑下面的问题:
给出N个正整数,再给出M个正整数,问这M个数中的每个数,分别是否在N个数出现过,其中N,M<=10^5。(题目参考:算法笔记)
对于这个问题,最直观的想法就是对于需要查询的每一个正整数x,遍历所有N个数,看是否有一个数和x相等。这种方法的时间复杂度是O(NM)。
为了降低上面做法的时间复杂度,我们可以考虑用空间换时间的策略:题目中给出了N和M是小于或等于10^5,那我们不妨建立设定一个bool型的数组hashTable[100010](初始均为false),我们在输入N个正整数时,就对hashTable进行修改,例输入了一个数x,那么hashTable[x] = True,代表数组下标为x的数在N中出现过。在对M个数进行查询时只需要一个if语句即可判断,例查询正整数y,如果hashTable[y] == True,那么y就在N个数出现过。这种做法先遍历了一遍N个数,然后再遍历M个数进行查询,时间复杂度降低到了O(M+N)。代码如下:
#include<iostream>
using namespace std;
int main()
{
bool hashTable[100010] = {false};
int n, m, x;
cin >> n >> m;
for(int i = 0; i < n; ++i)
{
cin >> x;
hashTable[x] = true;
}
for(int i = 0; i < m; ++i)
{
cin >> x;
if(hashTable[x] == true)
{
cout << "Yes" << endl;
}
else
{
cout << "No" << endl;
}
}
}
这种方法的特点就是将输入作为数组的下标,将数组的值作为输出。
二、冲突
假设对于一个散列函数H,有两个值a和b,且H(a) = H(b)=c,则称a和b对于c在散列函数H下有冲突,即如果a占据了位置c,那么b就不能再使用这个位置了。
如何处理冲突:
1、链地址法:将所有产生相同散列值的输入存储在同一个链表(或其他数据结构)中。
2、开放地址法:在发生冲突时,寻找下一个空闲的存储位置(该过程称为探查)
·线性探查:遇到冲突时,按固定步长(比如1)向前探查,直到找到下一个空闲位置。这种方法容易产生聚集的问题,即表中的连续若干个位置都被使用过,那么在探查的时候效率就很低。
·二次探查:根据平方的步长移动以减少聚集性的问题
·双重散列:用另一个散列函数来确定探查步长
3、再散列:重新设计一个散列函数或扩大散列表的容量,将数据重新分配到新的散列表中。
三、算法优势/适用场景
Hash算法能够在平均O(1)时间内完成查找、插入和删除操作,常用于处理涉及大量数据的查找问题。
1、散列表
·查找重复元素
·查找第一个非重复元素
·频次统计
2、字符串散列
·子串匹配
·找到字符串的相同或相似部分
·检测回文子串
四、例题(C++,持续更新中)
1、散列表
(1) 两数之和
题目描述:
给定一个整数数组 nums
和一个整数目标值 target
,请你在该数组中找出 和为目标值 target
的那 两个 整数,并返回它们的数组下标。你可以假设每种输入只会对应一个答案,并且你不能使用两次相同的元素。你可以按任意顺序返回答案。
示例:
输入:nums = [2,7,11,15], target = 9 输出:[0,1] 解释:因为 nums[0] + nums[1] == 9 ,返回 [0, 1] 。
输入:nums = [3,2,4], target = 6 输出:[1,2]
输入:nums = [3,3], target = 6 输出:[0,1]
提示:
2 <= nums.length <= 104
-109 <= nums[i] <= 109
-109 <= target <= 109
- 只会存在一个有效答案
方法一: 暴力枚举
对于数组中的每一个数x,遍历一遍数组寻找是否存在target-x。这种方法需要注意的是,对于每一个x,我们只需要寻找从x开始以后的所有数,因为在x以前的元素已经和x匹配过了。
class Solution {
public:
vector<int> twoSum(vector<int>& nums, int target) {
int n = nums.size();
for (int i = 0; i < n; ++i) {
for (int j = i + 1; j < n; ++j) {
if (nums[i] + nums[j] == target) {
return {i, j};
}
}
}
return {};
}
};
作者:力扣官方题解
链接:https://leetcode.cn/problems/two-sum/solutions/434597/liang-shu-zhi-he-by-leetcode-solution/
来源:力扣(LeetCode)
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
时间复杂度:O(N^2),空间复杂度:O(1)
方法二:散列表
map是红黑树实现的,map的find函数时间复杂度是O(logN),而unordered_map以散列代替map内部的红黑树实现,find函数时间复杂度为O(1)
class Solution {
public:
vector<int> twoSum(vector<int>& nums, int target) {
unordered_map<int,int> mp;//不会自动排序的map
int length = nums.size();
for(int i=0;i<length;++i)
{
// 对于数组的每一个数x,在数组中找target - x;
auto it = mp.find(target-nums[i]);
if(it!=mp.end())//找到了
{
return {it->second, i};//返回数组下标
}
else//没找到
{
mp[nums[i]] = i;
}
}
return {};
}
};
时间复杂度:O(N),空间复杂度:O(N)