解题笔记（2）——部分面试题解题思路

最新推荐文章于 2024-05-21 22:23:55 发布

lanhaoit

最新推荐文章于 2024-05-21 22:23:55 发布

阅读量398

点赞数

分类专栏：算法

算法专栏收录该内容

3 篇文章 0 订阅

订阅专栏

这几天在网上看到一篇关于算法面试题的博客，归纳的很好，有不少经典的题目，大部分来自《编程珠玑》、《编程之美》、《代码之美》三本书。这里给出书上的解答以及一些思考。如有不对的地方，希望得到高手的指点。

【一】时间受限

大部分的面试题，都是对时间复杂度有所要求的，如果有涉及，“最快”一类的字样，毫无疑问，先上时空原理，用空间来换时间。Hash，大数组，一些辅助性的空间，都是首选。在我的面试经历中，有无数次用到过Hash和大数组的。不过，通常这不会是面试官想听的唯一解法，他们紧接着十有八九是会说“如果只有xxxx空间呢？”。说此类方法只是为自己争取更多的时间，并且体现思考的完整性，简而言之，装B用。。。

eg1.1：求一个char（8bit）中，二进制1的个数，越快越好。 -- 《编程之美》

编程之美上提供了五种方法，（1）使用除法操作（2）使用位操作（3）在位操作的基础上改进，算法的复杂度只于1的个数有关（4）使用分支操作（5）查表法。

第2种方法用的是位运算，比第一种方法高效很多。第3种方法非常有技巧。第4，5两种方法其实是用空间换时间，但是如果是一个int（32bit），那么这两种方法就不适用了。方法3的代码

int Count(BYTE v) {

int num = 0;

while( v ) {

v &= ( v - 1 );

num++;

}

eg1.2：有一个整数数组A[N]，让你不用除法，求另一个数组B[N]，其中B[i] = A[0]*A[1] ... * A[N-1] / A[i]，期望复杂度是O(N)。 -- TopLanguage

利用两个辅助数组C[N],D[N]完成，其中C[i] = A[0]*A[1]*...A[i-1]*A[i], D[i]=A[i]*A[i+1]*...A[N-2]*A[N-1]，B[i] =C[i-1] *D[i+1]

【二】空间受限

这里的空间受限，指的是在大数据分析的逻辑下，空间受限的问题。大部分情况下，就是压缩。位图是一个很好的方法，用一个bit（或几个）取代更大的int类型，最常见的位图是1bit 取代 1int，其实，很多时候，1bit可以取代更大的空间，这完全取决于你需要保留的信息。。。

eg2.1：有一个很大的文件，存放一堆7位的电话号码，号码无重复，请用最小的内存消耗，将其排序。 -- 《编程珠玑》

利用位图技术实现。每一个号码如果用一个int存储，那么需要40MB ( (10^7*4)/10^6 MB)，如果用位图技术，则只需用1位来存放1个号码，需要1.25MB( ( 10^7/8)/10^6 MB)

每个号码对应位图的一位，位图初始全清零，读入一个号码就把相应的位置位，遍历后按位图顺序输出对应的数字。

eg2.2：给10MB的内存，给一个4百万整数的文件，找一个不在文件中的整数。

可以用10MB内存来存放 0 到（8*10^7-1）范围数的出现情况。扫描文件一遍，将该范围中相应的位置位，超出范围的数简单丢弃。然后遍历位图，找到第一个为0的位即可，位图中肯定有未置位的位。

扩展1 ：给10MB的内存，给一个40亿整数的文件，找一个不在文件中的整数。

同样可以用上述的方法，不过可能需要多遍扫描。因为文件中的整数是多于8*10^7，第一遍扫描后，位图的所有位都可能被置位。如果出现这种情况，那么用10MB内存存放（8*10^7）到（16*10^7-1）范围数的出现情况，再次尝试。平均性能几乎是扫描1次。

扩展2 ：给10MB的内存，给一个40亿整数的文件，找一个不在文件中的整数。只能扫描文件1遍

暂时未想到确定性的算法，这里给出一种近似的方法。随机生成200万个数，然后排序。扫描文件1遍，把文件中出现的对应数删除，比如200万个随机数中有5，而文件中也有5，那么把随机数5从数组中删除（简单置为-1即可）。最终随机生成的200万个数中会剩余 (2*10^6) * ( 1 - (4*10^9)/2^32) ，取其中的任意一个即可。几乎不会失败。

【三】基于文件
越来越多的大公司，开始关系对文件的处理，上面所说的空间受限的问题，其实也基本都是和文件打交道。基于文件的处理，基本都是寻找，或者排序，最最核心的，就是减少文件读取的次数。除了位图法，还可以考虑哨兵，典型的案例就是外排中，增加单个文件大小的方法。

eg3.1：给定一个包含4300000000个32位整数的顺序文件，找到一个至少出现两次的整数。 -- 《编程珠玑》

思路1：如果内存不受限，用位图技术，必有2个数会落到同一位中，其实是运用了鸽巢原理。32位整数能表示的最大数为4294967295，小于43亿。

思路2：如果内存受限，采用二分搜索法。由于4.3G>32位的整数空间，根据鸽笼原理，肯定会有重复的整数。搜索范围从所有的32位正整数开始（全部当成unsigned int，简化问题），即[0,2^32)，中间值即为2^31。然后遍历文件，如果小于2^31的整数个数大于2^31，则调整搜索范围为[0,2^31]，反之亦然；然后再对整个文件再遍历一遍，直到得到最后的结果。这样一共会有logn次的搜索，每次过n个整数（每次都是完全遍历），总体的复杂度为o(nlogn)

eg3.2：有一个文件，有很多很多的整数（也许有100亿），寻找其中最大的K个。 -- 《编程之美》

列举几种解法

解法1：如果元素不是很多，用快速排序，然后遍历找到最大的K个。总的时间复杂度为 O(N logN) + O(K)

解法2：找K个数中最小的那个，就是第K大的数。利用二分搜索找到第K大的数，然后在遍历。总的时间复杂度为 O(NlogN)

解法3：如果数据不能全部装入内存，上面两种方法不是很好。可以利用堆排序，即维护一个K个元素的最小堆即可。每次新考虑的一个数，如果比堆的最小数还要小，丢弃；如果比堆的最小数要大，那么替换最小元素，然后调整堆。时间复杂度为 O(N logK)

解法4：如果数据的范围有限，可以利用计数法，即扫描文件一遍，记录每个整数出现的次数，然后再从大到小取最大的K个即可。时间复杂度为O(N)

【四】常见方法
你需要相信，面试官也是人，他不会有心情花30分钟给你描述一个问题，或者让你做50页纸的推导，考算法的目的只是为了你的思维能力，而不是真的想让你搞定一个复杂的问题。大部分问题，都是有比较快速清晰的解决方法的。。。
1. 分治法这绝对是你必须考虑使用的一种方法，如果有可能的话。动态规划这东西，在面试的时候比较沉重，不好描述，不好书写，而分治却刚刚好，美丽，快捷，易书写，是面试官杀人越货的首选武器。分治的用法实在是太多了，几乎是无所不在，二分，快排，种群计数，各个唯美无比。。。

eg4.1：给你一个长度为N的整数数组，请找出最大的子数组和。 -- 《编程之美》

这一题其实可以用动态规划解决。定义两个辅助数组Start [N] 和 All [N] ，Start [i] 表示从元素i开始，包含元素i的最大的一段连续数组和。All[i] 表示从元素i开始，最大的一段连续数组和。All[0] = max { A[0], A[0]+Start[1], All[1] } 可以很方便的用动态规划解决。

int MaxSum(int *A, int n) {

All[n-1]=Start [n-1]=A[n-1];

for(int i=n-2;i>=0;i--){

Start[i]= max( A[i], A[i]+Start[i+1] );

All[i]=max( Start[i], All[i+1] );

}

return All[0];

}

如果要求返回最大子数组的位置，可以在循环中记录一下。算法还是能保持O(N)的时间复杂度的。

eg4.2：求一个int（32bit）中，二进制1的个数。 -- 《代码之美》

可以参考eg1.1的方法1、方法2、方法3

2. 排序和查找排序出现的次数实在是太多了，很重要的一点，排序的东西才能用二分。二分是如此好用，以至于我们总是想着排序。查找和排序总是紧密联系的，当然，仅仅是为了查找，做一次排序，你需要衡量一下代价。。。

eg4.3：有一个论坛，有ID发帖数目超过总数的一半，给你论坛所有帖子的ID列表，请你找到这个水王。 -- 《编程之美》

解法1：先将ID排个序，然后取中间位置的那个ID即可。

解法2：每次删除不同的ID，最后剩下的ID即为所求。

扩展1：如果有3个发帖很多的ID，并且发帖的数目都超过了总数N的1/4，找到这3个ID。

可以用类似的解法，维护3个候选者。对于新ID，检查3个候选者的出现次数。如果次数有0，那么将该候选者设置为新ID，并且把次数加1；如果次数都是大于0，并且新ID等于其中的一个候选者，那么将该候选者的出现次数加1；如果次数都是大于0，并且新ID不等于三个中的任意一个，那么将三个候选者的出现次数各减少1次。最后剩下的3个ID即为所求。

eg4.4：给一组一维的空间 [1, 6] [2, 4] ... ，请求是否有区间重叠。 -- 《编程之美》

解法：将目标区间按X坐标排序，然后合并相交区间，最后扫描一遍合并后的区间，检查源区间是否在其中一个目标区间中。最后一步也可以利用二分查找。

3. 减小问题规模很多时候，题目看上去很吓人，仔细分析一下，就可以刨去其中大部分的无关内容，获得真正的出题意图，这一点很重要。另外有些时候，题目会在空间上做出一些限制，这个时候，你可以考虑动态的对数据规模进行缩减，比如用减法或除法抵消，用抑或抵消，等等。。。

eg4.5：给一个整数N，求它的阶乘N!，有几个0结尾。 -- 《编程之美》

解法：0的出现是因为2*5带来的，因此只要计算min( 2的个数, 5的个数)即可。又由于2的出现频率大于5，只要求5的个数即可

eg4.6：盒子里有三种颜色的球，红黄蓝，可以用任意两个不同颜色的球，换两个另外颜色的球，比如1红 + 1黄 = 2蓝。现在盒子里面有171个红球，172个黄球，173个蓝球，问，能不能经过若干次交换，最终变成同一颜色的球。 -- TopLanguage

猜测：不能，最多只能是某种颜色0个，另一种1个，其余是第三种颜色。

eg4.7：有一组数，除了一个数只有1个，其他都是两两成对的，请找出那一个不成对的数。另，如果不成对的数有两个，该如何是好。

解法：如果只有1个，可以将所有数做异或运算，最后的结果就是要找的数。如果是2个，那么先将所有数做异或运算，得到一个数，然后找到这个数的其中一位非0 bit，利用这一位将这组数分成两部分，不成对的两个数不会在同一部分，然后对这两个部分分别调用只有1个情况的算法即可。

4. 常量法典型的速餐方法，它的思想是，一组数，在某些情况下，和一定，通过这个常量，进行反推，可快速搞定一些问题。。。

eg4.9：有一副扑克牌（你可以用任意方式来表示），被抽去一张，请快速找出这抽去的一张是什么？ -- 微软面试题

解法：算一下目前牌的数值总和x，原来完整的总和是y，则丢掉的牌是y-x。

5. 编码编码真是个好东西，它可以将复杂的问题抽象化。比如，对一个序列进行编码，可以直接映射到数组脚标上，大大提高访问速度。。。

eg4.10：最近一次百度笔试题 eg4.11：有1000瓶超级名贵的葡萄酒，其中有1瓶有毒。这种毒药很厉害，哪怕被稀释了1000000倍还是可以毒死人的。但这个毒药一定时间后才会毒发，时长是1个月。为了不浪费这些葡萄酒，有1000个壮士决定花5周的时间将毒酒找出，他们只希望最多有10个人牺牲，你需要如何安排才能实现。 -- TopLanguage

待解答

6. 概率不要轻视概率题，哪怕是最基本的概率常识。概率题之所以被青睐，因为它们往往违背直觉，容易让人陷入迷茫，这种场面是面试官喜闻乐见的。我曾经在baidu面试中，被一道简单的概率题，调戏的脸面全无，至今想起，仍然是汗流满面。所以，为了人身安全，复习一下概率的基本知识吧。。。

eg4.12：有一个长度为N的链表，N未知。希望你只遍历一次链表，就从链表中等概率的挑出K个数。 -- TopLanguage

某博客的解法，非常好 http://blog.csdn.net/potty15/article/details/6221715

a：首先挑出前k个数，保存在pick[1...k]中，然后从第k+1个开始遍历

for i = k+1 to N do //这里N不知道，但是可以用链表->next == null 来判断是否到达链表末尾。

r = random(1, i);

if (1 <= r <= k);

pick[r] = i;

简单数学证明如下：

归纳法，算法刚开始，对于前k个数被选中的概率都为1，，不失一般性，选择其中的第j个来讨论，

i = k+1轮：

random(1, i)返回值为j的概率为1/k+1，所以j保留下来的概率为k/k+1

i = k+2轮：

random(1, i)返回值为j的概率为1/k+2，所以j保留下来的概率为(k/k+1) * (k+1/k+2) = k/k+2

...

i = N轮

random(1, i)返回值为j的概率为1/N，所以j保留下来的概率为(k/k+1) * (k+1/k+2)*....* (N-1/N) = k/N

对于第k+1到第N个数，选择其中的数m来讨论，

当i = m时：

random(1, i)返回值在[1, k]内的概率为k/m，所以j保留下来的概率为k/m，设m保存在第s位

i = m+1轮：

random(1, i)返回值为s的概率为1/(m+1)，所以j保留下来的概率为(k/m) * (m/m+1) = k/(m+1)

...

i = N轮

random(1, i)返回值为s的概率为1/N，所以j保留下来的概率为(8/m) * (m/m+1) *....* (N-1/N) = k/N

得证。

【五】加速方法
很多时候，你给的算法基本正确，但是还不够优秀。面试官会希望你优化一下。优化的方法有很多，就基本的思路就是，考虑一下到底哪里出现了浪费。常见的浪费有两种，一种是用了比较沉重的运算，比如除法、取模等，你可能需要为计算来加速。另外有时候，你的算法还太粗线条，比如只需要符号，你却计算了总数等等。。。

eg5.1：求两个数的最大公约数。 -- 《编程之美》

解法1：利用的原理 f( x, y) = f(y, x%y) ，即辗转相除法

解法2：利用的原理 f(x , y) = f( y, x-y)，即辗转相减法

解法3：根据两个数的奇偶性

x is even, y is even f(x, y) = 2 * f( x>>1, y>>1)

x is even, y is odd f(x,y) = f( x>>1, y)

x is odd, y is even f(x,y) = f( x, y>>1)

x is odd, y is odd f(x,y) = f(y, x-y)

eg5.2：有一个整数数组A[N]，求其中任意N-1个数的最大乘积。 -- 《编程之美》

解法1：利用eg1.2的算法，计算出所有可能的N-1个数的乘积，然后遍历一遍找出最大的乘积。

解法2：利用N个数的正负分布情况。先扫描一遍，统计处数组中正数个数p，负数个数n，零的个数z，绝对值最小的正数a 和负数 b。

如果 z >=2 结果为0

如果 z =1

如果n为odd 结果为0

如果n为even 结果为除0外的乘积

如果 z =0

如果n为odd 结果为去掉绝对值最小负数后的乘积

如果n为even 结果为去掉绝对值最小的正数的乘积

eg5.3：估计一下快速排序的比较次数。 -- 《代码之美》
解法：

int cc(int n){

   int m;
   if (n <= 1) return 0;
   m = randint(1, n);
   return n-1 + cc(m-1) + cc(n-m);
}
【六】数据结构
大部分面试时候，我们都是面向数组来设计算法，因为简单变化多，面试官好把握。但其他数据结果，同样也很重要。AVL，B树那样的可能比较复杂，但是链表、树这样的结构，也经常出没，我个人就碰见多次。。。
1. 链表 eg6.1：给你一个单链表的头指针，在不使用大量附加数据或修改原有数据的前提下，检查一个单链表是否有环。 -- 微软面试题

解法：使用快慢两个指针，慢指针p = p->next，快指针q = q->next->next，如果相遇，那么就有环。

eg6.2：给你两个链表，如何判断其是否相交，如果相交，如何找到两个链表的第一个交点。 -- 《编程之美》

解法：2个链表都遍历到尾部，即p->next==null && q->next==null，然后判断p == q。

eg6.3：只给你一个指向链表中某元素的指针，请删除该元素。 -- 《编程之美》

解法：将后一个元素复制到当前元素p->value = p->next->value，然后删除后一个元素。
2. 树 eg6.4：写堆排序的算法

一般算法书上都有的，这里就不列了

eg6.5：判断一棵二叉树T中，是否包含另一颗二叉树P的结构。 -- 微软面试题

待解答

以上一些内容，只是管中窥豹而已。题目来源主要是一些快餐式的书和论坛，包括《编程之美》《代码之美》《编程珠玑》，其中特别推荐，TopLanguage Group的“今天我们思考”专辑。快餐吃多了总会不营养的，需要慢条斯理的按食谱吃点营养大餐才能真正的强身健体，比如高大爷的圣经，《算法导论》，还有，波利亚的《怎样解题》。

本人享有博客文章的版权，转载请标明出处 http://blog.csdn.net/wuzhekai1985