哈希表应用-CSDN博客

本文链接：https://blog.csdn.net/m0_72674633/article/details/136581721

文章讨论了如何在给定值域受限的情况下，利用计数排序算法并结合取模和数据结构优化（如vector和链表）来找出不同自然数的数量。着重于算法的正确性和空间效率的权衡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

例题

在这里使用一个简化版的问题进行分析：给定N个自然数，值域是 $[0,10^{9}]$ ，求出这N个自然数中共有多少个不同的自然数。

分析

如果值域是 $[0,10^{7}]$ ，那么可以利用之前介绍过的计数排序算法解决问题。定义一个 $[0,10^{7}]$ 的大数组a，每个位置a[x]所对应的值为0代表这个值x并没有出现过，为1则代表这个值x出现过。然后将这N个自然数一个一个进行判断，如果a[x]为0，则这个数没统计过，把答案加1，然后把a[x]设为1，这个数字已经被统计过了，不对答案进行改变。

那么值域是 $[0,10^{9}]$ ，该怎么办呢？可以取一个模数mod，定义一个大小为mod的数组，然后把每个数对mod取模。如果两个数对mod取模得到相同的值，那么就认为两个数是相同的。代码如下：

#include<iostream>
#define mod 233333
using namespace std;
int n,x,ans,a[mod+2];
int main(){
	cin>>n;
	for(int i=1;i<=n;i++){
		cin>>x;
		x%=mod;
		if(!a[x]){
			a[x]=1;
			ans++;
		}
	}
	cout<<ans<<endl;
	return 0;
}

可以发现，这个处理方法的优势和劣势都很明显。优势是这个做法有效减少了空间的利用，只需要定义一个大小为mod的数组。而劣势是，如果有两个不同的数恰好对mod取模之后得到相同的结果，那这个算法的正确性就得不到保证了--算法会认为这两个数是同一个数，但实际上是两个不同的数，但实际上是两个不同的数，产生了冲突。

该如何优化这个算法，使得其既保证了正确性，又降低了时间和空间复杂度呢？可以把一个int的数组改成一个vector<int>的数组或者一个链表，然后将取模后为同一个数的所有值都存在其所对对应的vector或者链表中。

然后每次判断一个数x是否存在的时候，遍历x%mod为止的vector或链表中所有元素，看看是否有x即可。下面给出使用vector存元素的代码

#include<iostream>
#include<vector>
#define mod 233333
using namespace std;
int n,x,ans;
vector <int> linker[mod+2];
void insert(int x){
	for(int i=0;i<linker[x%mod].size();i++){
		if(linker[x%mod][i]==x){
			return;
		}
	}
	linker[x%mod].push_back(x);
	ans++;
}
int main(){
	cin>>n;
	for(int i=1;i<=n;i++){
		cin>>x;
		insert(x);
	}
	cout<<ans<<endl;
	return 0;
}