一个大小为n的数组,里面的数都属于范围[0, n-1],有不确定的重复元素,找到至少一个重复元素,要求O(1)空间和O(n)时间。

    这个题目要求用O(n)的时间复杂度,这意味着只能遍历数组一次。同时还要寻找重复元素,很容易想到建立哈希表来完成,遍历数组时将每个元素映射到哈希表中,如果哈希表中已经存在这个元素则说明这就是个重复元素。因此直接使用C++ STL中的hash_set(参见《STL系列之六 sethash_set》)可以方便的在O(n)时间内完成对重复元素的查找。

    但是题目却在空间复杂度上有限制——要求为O(1)的空间。因此采用哈希表这种解法肯定在空间复杂度上是不符合要求的。但可以沿着哈希法的思路继续思考,题目中数组中所以数字都在范围[0 n-1],因此哈希表的大小为n即可。因此我们实际要做的就是对n个范围为0n-1的数进行哈希,而哈希表的大小刚好为n。对排序算法比较熟悉的同学不难发现这与一种经典的排序算法——基数排序非常类似。而基数排序的时间空间复杂度刚好符合题目要求!因此尝试使用基数排序来解这道面试题。

 

    下面以2415761902这十个数为例,展示下如何用基数排序来查找重复元素。

下标

  0

  1

  2

  3

  4

  5

  6

  7

  8

  9

数据

  2

  4

  1

  5

  7

  6

  1

  9

  0

  2

1)由于第0个元素a[0] 等于2不为0,故交换a[0]a[a[0]]即交换a[0]a[2]得:

下标

  0

  1

  2

  3

  4

  5

  6

  7

  8

  9

数据

  1

  4

  2

  5

  7

  6

  1

  9

  0

  2

2)由于第0个元素a[0] 等于1不为0,故交换a[0]a[a[0]]即交换a[0]a[1]得:

下标

  0

  1

  2

  3

  4

  5

  6

  7

  8

  9

数据

  4

  1

  2

  5

  7

  6

  1

  9

  0

  2

3)由于第0个元素a[0] 等于4不为0,故交换a[0]a[a[0]]即交换a[0]a[4]得:

下标

  0

  1

  2

  3

  4

  5

  6

  7

  8

  9

数据

  7

  1

  2

  5

  4

  6

  1

  9

  0

  2

4)由于第0个元素a[0] 等于7不为0,故交换a[0]a[a[0]]即交换a[0]a[7]得:

下标

  0

  1

  2

  3

  4

  5

  6

  7

  8

  9

数据

  9

  1

  2

  5

  4

  6

  1

  7

  0

  2

5)由于第0个元素a[0] 等于9不为0,故交换a[0]a[a[0]]即交换a[0]a[9]得:

下标

  0

  1

  2

  3

  4

  5

  6

  7

  8

  9

数据

  2

  1

  2

  5

  4

  6

  1

  7

  0

  9

6)由于第0个元素a[0] 等于2不为0,故交换a[0]a[a[0]]即交换a[0]a[2],但a[2]也为2a[0]相等,因此我们就找到了一个重复的元素——2

下标

  0

  1

  2

  3

  4

  5

  6

  7

  8

  9

数据

  2

  1

  2

  5

  4

  6

  1

  7

  0

  9

     有了上面的分析,代码不难写出:

//GOOGLE面试题
//一个大小为n的数组,里面的数都属于范围[0, n-1],有不确定的重复元素,找到至少一个重复元素,要求O(1)空间和O(n)时间。
//By MoreWindows (http://blog.csdn.net/MoreWindows)
#include <stdio.h>
const int NO_REPEAT_FLAG = -1;
void Swap(int &x, int &y)
{
	int t = x;
	x = y;
	y = t;
}
//类似于基数排序,找出数组中第一个重复元素。
int RadixSort(int a[], int n)
{
	int i;
	for (i = 0; i < n; i++)
	{
		while (i != a[i])
		{
			if (a[i] == a[a[i]])
				return a[i];
			Swap(a[i], a[a[i]]);
		}
	}
	return NO_REPEAT_FLAG;
}
void PrintfArray(int a[], int n)
{
	for (int i = 0; i < n; i++)
		printf("%d ", a[i]);
	putchar('\n');
}
int main()
{
	printf("    白话经典算法系列之十 一道有趣的GOOGLE面试题 \n");      
	printf(" -- by MoreWindows( http://blog.csdn.net/MoreWindows ) --\n\n"); 

	const int MAXN = 10;
	int a[MAXN] = {2, 4, 1, 5, 7,  6, 1, 9, 0, 2};
	//int a[MAXN] = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9};

	printf("数组为: \n");
	PrintfArray(a, MAXN);

	int nRepeatNumber = RadixSort(a, MAXN);
	if (nRepeatNumber != NO_REPEAT_FLAG)
		printf("该数组有重复元素,此元素为%d\n", nRepeatNumber);
	else
		printf("该数组没有重复元素\n");
	return 0;
}

方法二:

int Repeat(int *a, int n)
{
	for(int i = 0; i < n; i++)
	{
		if(a[i] > 0) //判断条件
		{
			if(a[ a[i] ] < 0)
			{
				return a[i];//已经被标上负值了,有重复
			}
			else 
			{
				a[ a[i] ]= -a[a[i]]; //记为负
			}

		}
		else // 此时|a[i]|代表的值已经出现过一次了
		{
			if(a[-a[i]] < 0)
			{
				return -a[i];//有重复找到
			}
			else 
			{
				a[ -a[i] ] = -a[ -a[i] ];
			}
		}
	}
	return -1;//数组中没有重复的数
}

下面对这种以取负为访问标志的方法用个实例来说明下:

    设int a[] = {1, 2, 1}

    第一步:由于a[0]等于1大于0,因此先判断下a[a[0]]a[1]是否小于0,如果小于,说明这是第二次访问下标为1的元素,表明我们已经找到了重复元素。不是则将a[a[0]]取负,a[1]=-a[1]=-2

    第二步:由于a[1]等于-2,因此先判断下a[-a[1]]取出a[2]是否小于0,如果小于,说明这是第二次访问下标为2的元素,表明我们已经找到了重复元素。不是则将a[-a[1]]取负,a[2]=-a[2]=-1

    第三步:由于a[2]等于-1,因此判断下a[-a[2]]a[1]是否小于0,由于a[1]在第一步中被取反过了,因此证明这是第二次访问下标为1的元素,直接返回-a[2]即可。

 

这种通过取负来判断元素是否重复访问的方法正如网友jwfeng002所言,当数组第0个元素为0且数据中只有0重复时是无法找出正确解的。只要用:

       const int MAXN = 5;

       int a[MAXN] = {0, 1, 2, 3, 0};

这组数据来测试,就会发现该方法无法判断0是个重复出现的元素。运行结果如下图所示:

 

这个算法虽然有缺陷,但我们可以沿着这个算法的思路——这个算法之所以用到了取负,是因此根据题目条件,数组中数据范围为[0n-1],因此可以通过判断元素是否大于0来决定这个元素是未访问过的数据还是已访问过的数据。但也正因为对0的取负是无效操作决定了这个算法存在着缺陷。要改进一下也很简单——不用取负,而用加n。这样通过判断元素是否大于等于n就能决定这个元素是未访问过的数据还是已访问过的数据。完整代码如下:

[cpp]  view plain copy
  1. //GOOGLE面试题  
  2. //一个大小为n的数组,里面的数都属于范围[0, n-1],有不确定的重复元素,找到至少一个重复元素,要求O(1)空间和O(n)时间。  
  3. //By MoreWindows (http://blog.csdn.net/MoreWindows)  
  4. #include <stdio.h>  
  5. const int NO_REPEAT_FLAG = -1;  
  6. int FindRepeatNumberInArray(int *a, int n)  
  7. {  
  8.     for(int i = 0; i < n; i++)  
  9.     {  
  10.         int nRealIndex = a[i] >= n ? a[i] - n : a[i];  
  11.         if (a[nRealIndex] >= n) //这个位置上的值大于n说明已经是第二次访问这个位置了  
  12.             return nRealIndex;  
  13.         else  
  14.             a[nRealIndex] += n;  
  15.     }  
  16.     return NO_REPEAT_FLAG; //数组中没有重复的数  
  17. }  
  18. void PrintfArray(int a[], int n)  
  19. {  
  20.     for (int i = 0; i < n; i++)  
  21.         printf("%d ", a[i]);  
  22.     putchar('\n');  
  23. }  
  24. int main()  
  25. {  
  26.     printf("    白话经典算法系列之十一 一道有趣的GOOGLE面试题解法2\n");        
  27.     printf(" -- by MoreWindows( http://blog.csdn.net/MoreWindows ) --\n\n");   
  28.   
  29.     const int MAXN = 10;  
  30.     //int a[MAXN] = {2, 4, 1, 5, 7,  6, 1, 9, 0, 2};  
  31.     int a[MAXN] = {0, 1, 2, 3, 4,  5, 6, 7, 8, 0};  
  32.       
  33.     printf("数组为: \n");  
  34.     PrintfArray(a, MAXN);  
  35.   
  36.     int nRepeatNumber = FindRepeatNumberInArray(a, MAXN);  
  37.     if (nRepeatNumber != NO_REPEAT_FLAG)  
  38.         printf("该数组有重复元素,此元素为%d\n", nRepeatNumber);  
  39.     else  
  40.         printf("该数组没有重复元素\n");  
  41.     return 0;  
  42. }  

运行结果如图所示:

如同上一篇《白话经典算法系列之十一道有趣的GOOGLE面试题》一样,算法的核心代码依然只有短短5行左右。在时间空间复杂度上也同样满足题目要求。


相信由这篇文章可以看出,思维的转换性对寻找一个合适算法是非常有用的。

 

另外,代码的书写也要注意一下,对比一下文章中的Repeat()函数与FindRepeatNumberInArray()就能发现对代码进行一下简洁是非常有必要的。如果真在GOOGLE的面试中,虽然都完成了面试题,但面试官对这二份代码的感觉会是如何了?这也正是很多童鞋在面试后感觉困惑,为什么答的还不错怎么就面挂了。

白话经典算法系列文章地址:

http://blog.csdn.net/MoreWindows/article/category/859207

原文地址:http://blog.csdn.net/morewindows/article/details/8212446



  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
可以使用桶排序(Bucket Sort)的思想来解决该问题。具体步骤如下: 1. 首先定义一个长度为 n 的桶数组 bucket,将它所有元素初始化为0。 2. 遍历数组,对于每个元素 a[i],将 bucket[a[i]] 的值加 1。 3. 再次遍历数组,对于每个元素 a[i],检查 bucket[a[i]] 是否大于 1。如果是,表示 a[i] 重复出现,输出错误信息并结束程序;如果不是,则继续遍历。 4. 如果遍历结束后都没有发现重复元素,则表示数据没有问题,输出正确信息即可。 下面是 C 语言的实现代码: ```c #include <stdio.h> #include <stdlib.h> #define MAX_N 1000 void check_duplicate(int a[], int n) { int bucket[MAX_N] = {0}; // 初始化桶数组 int i; // 遍历数组,统计每个元素出现的次数 for (i = 0; i < n; i++) { bucket[a[i]]++; } // 再次遍历数组,检查是否有重复元素 for (i = 0; i < n; i++) { if (bucket[a[i]] > 1) { printf("Duplicate element found: %d\n", a[i]); exit(1); } } // 如果程序能执行到这里,表示数据没有问题 printf("Data is valid.\n"); } int main() { int a[] = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}; // 测试数据,没有重复元素 int b[] = {0, 1, 2, 3, 4, 5, 6, 7, 8, 0}; // 测试数据,有重复元素 check_duplicate(a, 10); // 输出 Data is valid. check_duplicate(b, 10); // 输出 Duplicate element found: 0 return 0; } ``` 注意,这里假设每个元素的值都在 0 ~ n-1 的范围内,因此桶数组大小只需要开到 n,可以避免浪费空间。如果数据的范围确定,可以考虑使用哈希表等数据结构来实现。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值