[转]程序员编程艺术第二十一、二章：出现次数超过一半，最短摘要生成问题

最新推荐文章于 2024-04-22 22:08:26 发布

Endoresu

最新推荐文章于 2024-04-22 22:08:26 发布

阅读量999

点赞数

分类专栏：编程文章标签：编程算法 numbers 面试搜索引擎 input

编程专栏收录该内容

2 篇文章 0 订阅

订阅专栏

毕业论文正好需要提取摘要啊，正好给我碰到这篇文章，非常难得，果断珍藏起来：

http://blog.csdn.net/v_july_v/article/details/6890054

第二十一~二十二章：出现次数超过一半的数字，最短摘要的生成

前言

咱们先来看两个问题：

第一个问题来自编程之美上，Tango是微软亚洲研究院的一个试验项目，如图1所示。研究院的员工和实习生们都很喜欢在Tango上面交流灌水。传说，Tango有一大“水王”，他不但喜欢发帖，还会回复其他ID发的每个帖子。坊间风闻该“水王”发帖数目超过了帖子总数的一半。如果你有一个当前论坛上所有帖子（包括回帖）的列表，其中帖子作者的ID也在表中，你能快速找出这个传说中的Tango水王吗？

图1 Tango

第二个问题来自各位读者的手中，你我在百度或谷歌搜索框中敲入本博客名称的前4个字“结构之法”，便能在第一个选项看到本博客的链接，如下图2所示：

图2 谷歌中搜索关键字“结构之法”

在上面所示的图2中，搜索结果“结构之法算法之道-博客频道-CSDN.NET”下有一段说明性的文字：“程序员面试、算法研究、编程艺术、红黑树4大经典原创系列集锦与总结作者：July--结构之法算法...”，我们把这段文字称为那个搜索结果的摘要，亦即最短摘要。我们的问题是，请问，这个最短摘要是怎么生成的呢?

ok，看本文之前，你尚不知道怎么解决上述两个问题的话不要紧，本文即要阐述上述两个问题。若有任何问题，欢迎随时不吝指正。谢谢。

第二十一章、数组中出现次数超过一半的数字

74.数组中超过出现次数超过一半的数字
题目：数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字。

分析：编程之美上也有这道题，不过它变换了题目的表述形式，即是如本文前言所述的寻找发帖水王的问题。

ok，咱们来解决上述这道题，以微软面试100题第74题的阐述为准（本程序员编程艺术系列就是按照之前整理的微软100题一题一题展开而来的）。

一个数组中有很多数，现在我们要找出这个数组中那个超过出现次数一半的数字，怎么找呢?大凡当我们碰到某一个杂乱无序的东西时，我们人的内心本质期望是希望把它梳理成有序的。所以，我们得分两种情况来讨论，无序和有序：

如果无序，那么我们是不是可以先把数组中所有这些数字先进行排序，至于选取什么排序方法则不在话下，最常用的快速排序O（N*logN）即可。排完序呢，直接遍历。在遍历整个数组的同时统计每个数字的出现次数，然后把那个出现次数超过一半的数字直接输出，题目便解答完成了。总的时间复杂度为O（N*logN+N）。
但各位再想想，如果是有序的数组呢或者经过上述由无序的数组变成有序后的数组呢？是否在排完序O（N*logN）后，真的还需要再遍历一次整个数组么?我们知道，既然是数组的话，那么我们可以根据数组索引支持直接定向到某一个数。我们发现，一个数字在数组中的出现次数超过了一半，那么在已排好序的数组索引的N/2处（从零开始编号），就一定是这个数字。自此，我们只需要对整个数组排完序之后，然后直接输出数组中的第N/2处的数字即可，这个数字即是整个数组中出现次数超过一半的数字，总的时间复杂度由于少了最后一次整个数组的遍历，缩小到O（N*logN）。
然不论是上述思路一的O（N*logN+N），还是思路二的O（N*logN），时间复杂度并无本质性的改变。我们需要找到一种更为有效的思路或方法。既要缩小总的时间复杂度，那么就用查找时间复杂度为O（1），事先预处理时间复杂度为O（N）的hash表。哈希表的键值（Key）为数组中的数字，值（Value）为该数字对应的次数。然后直接遍历整个hash表，找出每一个数字在对应的位置处出现的次数，输出那个出现次数超过一半的数字即可。
Hash表需要O（N）的开销空间，且要设计hash函数，还有没有更好的办法呢?我们可以试着这么考虑，如果每次删除两个不同的数（不管是不是我们要查找的那个出现次数超过一半的数字），那么，在剩下的数中，我们要查找的数（出现次数超过一半）出现的次数仍然超过总数的一半。通过不断重复这个过程，不断排除掉其它的数，最终找到那个出现次数超过一半的数字。这个方法，免去了上述思路一、二的排序，也避免了思路三空间O（N）的开销，总得说来，时间复杂度只有O（N），空间复杂度为O（1），不失为最佳方法。

或许，你还没有明白上述思路4的意思，举个简单的例子吧，如数组a[5]={0,1,2,1,1};

很显然，若我们要找出数组a中出现次数超过一半的数字，这个数字便是1，若根据上述思路4所述的方法来查找，我们应该怎么做呢?通过一次性遍历整个数组，然后每次删除相同的两个数字，过程如下简单表示：

0 1 2 1 1 =>2 1 1=>1,最终，1即为所找。

Ok，思路清楚了，那么接下来，咱们就来写代码实现上述思路4所述的方法：

//改自编程之美 2010
Type Find(Type* a, int N) //a代表数组，N代表数组长度
{
Type candidate;
int nTimes, i;
for(i = nTimes = 0; i < N; i++)
{
if(nTimes == 0)
{
candidate = a[i], nTimes = 1;
}
else
{
if(candidate == a[i])
nTimes++;
else
nTimes--;
}
}
return candidate;
}

咱们根据数组的特性进一步考虑@zhedahht：数组中有个数字出现的次数超过了数组长度的一半。也就是说，有个数字出现的次数比其他所有数字出现次数的和还要多。
因此我们可以考虑在遍历数组的时候保存两个值：一个是数组中的一个数字，一个是次数。当我们遍历到下一个数字的时候，如果下一个数字和我们之前保存的数字相同，则次数加1。如果下一个数字和我们之前保存的数字不同，则次数减1。如果次数为零，我们需要保存下一个数字，并把次数设为1。

由于我们要找的数字出现的次数比其他所有数字出现的次数之和还要多，那么要找的数字肯定是最后一次把次数设为1时对应的数字。根据这个思路，咱们可以编写如下代码：

//copyright@zhedahht
//July,updated,
//2011.04.16。
#include <iostream>
using namespace std;
bool g_Input = false;
int Num(int* numbers, unsigned int length)
{
if(numbers == NULL && length == 0)
{
g_Input = true;
return 0;
}
g_Input = false;
int result = numbers[0];
int times = 1;
for(int i = 1; i < length; ++i)
{
if(numbers[i] == result)
times++;
else
times--;
if(times == 0)
{
result = numbers[i];
times = 1;
}
}
//检测输入是否有效。
times = 0;
for(i = 0; i < length; ++i)
{
if(numbers[i] == result)
times++;
}
if(times * 2 <= length)
//检测的标准是：如果数组中并不包含这么一个数字，那么输入将是无效的。
{
g_Input = true;
result = 0;
}
return result;
}
int main()
{
int a[10]={1,2,3,4,6,6,6,6,6};
int* n=a;
cout<<Num(a,9)<<endl;
return 0;
}

这段代码与上段代码本质上并无二致，不过有几个问题，还是需要我们注意：

当输入无效性时，要处理。比如数组长度为0。
最后，上述代码加了一个判断，如果数组中并不包含这么一个数字，那么输入也是无效的。因此在函数结束前还加了一段代码来验证输入是不是有效的。

第二十二章、最短摘要的生成

Alibaba笔试题：给定一段产品的英文描述，包含M个英文字母，每个英文单词以空格分隔，无其他标点符号；再给定N个英文单词关键字，请说明思路并编程实现方法

String extractSummary(String description,String[] key words)

目标是找出此产品描述中包含N个关键字（每个关键词至少出现一次）的长度最短的子串，作为产品简介输出。（不限编程语言）20分。

这题是来自此篇文章十月百度，阿里巴巴，迅雷搜狗最新面试十一题中整理的阿里巴巴的笔试题，之前已经给出了这样一种思路，如下：

@owen：扫描过程始终保持一个[left,right]的range,初始化确保[left,right]的range里包含所有关键字则停止。然后每次迭代：

试图右移动left，停止条件为再移动将导致无法包含所有关键字。
比较当前range's length和best length，更新最优值。
右移right，停止条件为使任意一个关键字的计数+1。
重复迭代。

在那篇文章中也提到了编程之美有最短摘要生成的问题，与此问题类似。下面，我将介绍这种方法。首先，咱们来看一个问题。读者可以在百度或谷歌中搜索本博客名称的前4个字，” 结构之法“，便会在第一个搜索结果中看到如下图所示的搜索项：

上图中，那段大致介绍本博客结构之法算法之道的文字：”程序员面试、算法研究、编程艺术、红黑树4大经典原创系列集锦与总结作者：July--结构之法算法之道blog之博主。时间：2010年10月-2011年6月。出处：http://...“这段介于搜索关键词与最底下的URL便是我们所称之为的摘要。那么，这段摘要是怎么产生的呢?可以对问题进行如下的简化。

假设给定的已经是经过网页分词之后的结果，词语序列数组为W。其中W[0], W[1],…, W[N]为一些已经分好的词语。
假设用户输入的搜索关键词为数组Q。其中Q[0], Q[1],…, Q[m]为所有输入的搜索关键词。

这样，生成的最短摘要实际上就是一串相互联系的分词序列。比如从W[i]到W[j]，其中，0<i<j<=N。例如上图所示的摘要“程序员面试、算法研究、编程艺术、红黑树4大经典原创吸了集锦与总结作者：July--结构之法算法之道blog之博主.....”中包含了关键字——“结构之法”。

那么，我们该怎么做呢？

思路一：

在分析问题之前，先通过一个实际的例子来探讨。比如在本博客第一篇置顶文章的开头，有这么一段话：

“程序员面试、算法研究、编程艺术、红黑树4大经典原创系列集锦与总结
作者：July--结构之法算法之道blog之博主。
时间：2010年10月-2011年6月。
出处：http://blog.csdn.net/v_JULY_v。
声明：版权所有，侵犯必究。”

那么，我们可以猜想一下可能的分词结果：

”程序员/面试/、/算法/研究/、/编程/艺术/、/红黑树/4/大/经典/原创/系列/集锦/与/总结/ /作者/：/July/--/结构/之/法/算法/之/道/blog/之/博主/....“ （网页的分词效果W数组）

这也就是我们期望的W数组序列。

之前的Q数组序列为：

“结构之法”（用户输入的关键字Q数组）

再看下下面这个W-Q序列：

w0,w1,w2,w3,q0,w4,w5,q1,w6,w7,w8,q0,w9,q1

上述序列上面的是W数组（经过网页分词之后的结果），W[0], W[1],…, W[N]为一些已经分好的词语，

上述序列下面的是Q数组（用户输入的搜索关键词）。其中Q[0], Q[1],…, Q[m]为所有输入的搜索关键词。

ok，如果你不甚明白，我说的通俗点：如上W-Q序列中，我们可以把,q0,w4,w5,q1作为摘要，q0,w9,q1的也可以作为摘要，同样都包括了所有的关键词q0，q1，那么选取哪个是最短摘要呢？答案很明显，后一个更短，选取q0,w9,q1的作为最短摘要，这便是最短摘要的生成。

我们可以进一步可以想象，当我们在百度的搜索框中输入“结构之法”4个字时，搜索引擎将在索引数据库中（关于搜索引擎原理的大致介绍，可参考本博客中这篇文章：搜索引擎技术之概要预览）查找和匹配这4个字的网页，最终第一个找到了本博客的置顶的第一篇文章：[置顶]程序员面试、算法研究、编程艺术、红黑树4大系列集锦与总结，经过把此网页分词后，便得到了上述的分词效果，然后在这些分词中查找“结构之法”4个关键字，但这4个关键字不一定只会出现一遍，它可能会在这篇文章中出现多次，就如上面的W-Q序列一般。咱们可以假想出下面的结果（结构之法便出现了两次）：

“程序员/面试/、/算法/研究/、/编程/艺术/、/红黑树/4/大/经典/原创/系列/集锦/与/总结/ /作者/：/July/--/结构/之/法/算法/之/道/blog/之/博主/././././转载/请/注明/出处/：/结构/之/法/算法/之/道/CSDN/博客/./././.”

由此，我们可以得出解决此问题的思路，如下：

从W数组的第一个位置开始查找出一段包含所有关键词数组Q的序列（第一个位置”程“开始：程序员/面试/、/算法/研究/、/编程/艺术/、/红黑树/4/大/经典/原创/系列/集锦/与/总结/ /作者/：/July/--/结构/之/法/查找包含关键字“结构之法”所有关键词的序列）。计算当前的最短长度，并更新Seq数组。
对目标数组W进行遍历，从第二个位置开始，重新查找包含所有关键词数组Q的序列（第二个位置”序“处开始：程序员/面试/、/算法/研究/、/编程/艺术/、/红黑树/4/大/经典/原创/系列/集锦/与/总结/ /作者/：/July/--/结构/之/法/查找包含关键字”结构之法“所有关键词的序列），同样计算出其最短长度，以及更新包含所有关键词的序列Seq，然后求出最短距离。
依次操作下去，一直到遍历至目标数组W的最后一个位置为止。

最终，通过比较，咱们确定如下分词序列作为最短摘要，即搜索引擎给出的分词效果：

”程序员面试、算法研究、编程艺术、红黑树4大经典原创系列集锦与总结作者：July--结构之法算法之道blog之博主。时间：2010年10月-2011年6月。出处：http://...“

那么，这个算法的时间复杂度如何呢？

要遍历所有其他的关键词（M），对于每个关键词，要遍历整个网页的词（N），而每个关键词在整个网页中的每一次出现，要遍历所有的Seq，以更新这个关键词与所有其他关键词的最小距离。所以算法复杂度为：O（N^2 * M）。

思路二：

我们试着降低此问题的复杂度。因为上述思路一再进行查找的时候，总是重复地循环，效率不高。那么怎么简化呢？先来看看这些序列：

w0,w1,w2,w3,q0,w4,w5,q1,w6,w7,w8,q0,w9,q1

问题在于，如何一次把所有的关键词都扫描到，并且不遗漏。扫描肯定是无法避免的，但是如何把两次扫描的结果联系起来呢？这是一个值得考虑的问题。

沿用前面的扫描方法，再来看看。第一次扫描的时候，假设需要包含所有的关键词，从第一个位置w0处将扫描到w6处：

w0,w1,w2,w3,q0,w4,w5,q1,w6,w7,w8,q0,w9,q1

那么，下次扫描应该怎么办呢？先把第一个被扫描的位置挪到q0处。

w0,w1,w2,w3,q0,w4,w5,q1,w6,w7,w8,q0,w9,q1

然后把第一个被扫描的位置继续往后面移动一格，这样包含的序列中将减少了关键词q0。那么，我们便可以把第二个扫描位置往后移，这样就可以找到下一个包含所有关键词的序列。即从w4扫描到w9处，便包含了q1，q0：

w0,w1,w2,w3,q0,w4,w5,q1,w6,w7,w8,q0,w9,q1

这样，问题就和第一次扫描时碰到的情况一样了。依次扫描下去，在w中找出所有包含q的序列，并且找出其中的最小值，就可得到最终的结果。编程之美上给出了如下参考代码：

//July、updated，2011.10.21。

 
   view plain 
  
 int nTargetLen = N + 1;           // 设置目标长度为总长度+1  
 int pBegin = 0;                     // 初始指针  
 int pEnd = 0;                       // 结束指针  
 int nLen = N;                       // 目标数组的长度为N  
 int nAbstractBegin = 0;           // 目标摘要的起始地址  
 int nAbstractEnd = 0;           // 目标摘要的结束地址  
   
 while(true)  
 {  
     // 假设未包含所有的关键词，并且后面的指针没有越界，往后移动指针  
     while(!isAllExisted() && pEnd < nLen)  
     {  
         pEnd++;  
     }  
       
     // 假设找到一段包含所有关键词信息的字符串  
     while(isAllExisted())  
     {  
         if(pEnd – pBegin < nTargetLen)  
         {  
             nTargetLen = pEnd – pBegin;  
             nAbstractBegin = pBegin;  
             nAbstractEnd = pEnd – 1;   
         }  
         pBegin++;  
     }  
     if(pEnd >= N)  
         Break;  
 }   

小结：上述思路二相比于思路一，很明显提高了不小效率。我们在匹配的过程中利用了可以省去其中某些死板的步骤，这让我想到了KMP算法的匹配过程。同样是经过观察，比较，最后总结归纳出的高效算法。我想，一定还有更好的办法，只是我们目前还没有看到，想到，待我们去发现，创造。

ok，留下一个编程之美一书上的扩展问题：当搜索一索一个词语后，有许多的相似页面出现，如何判断两个页面相似，从而在搜索结果中隐去这类结果？

本文参考：

编程之美第二章第2.3节寻找发帖水王；
编程之美第三章第3.5节最短摘要的生成；
http://zhedahht.blog.163.com/blog/static/25411174201085114733349/。

后记

编程艺术系列从今年4月开始创作，已写了二十二章。此系列最初是我一个人写，后来我的一些朋友加入进来了，便成立了程序员编程艺术室，是我和一些朋友们一起写了，但到如今一直在坚持的又只剩下自己了。近些天，常常发呆胡乱思考一些东西，如个人写博刚过一年，有时候也看得一些有关互联网创业的文章，便有了下面写博VS创业这个话题：

读者第一（用户至上）；
站在读者角度和思维方式阐述问题，文不易懂死不休（重视用户体验，用户不喜欢不会用的产品便是废品）；
只写和创作读者最最需要的文章，东西（别人不需要，便没有市场，没有市场，一切免谈）；
写博贵在坚持（创业贵在坚持）。

编程艺术系列一如之前早已说过，“因为编程艺术系列最后可能要写到第六十章”（语出自：程序员编程艺术第一~十章集锦与总结--面试、算法、编程）。期待，编程艺术室的朋友能早日继续加入共同创作。以诸君为傲。ok，若有任何问题，欢迎随时不吝指正。转载请注明出处。完。July、2011.10。

Endoresu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[转]程序员编程艺术第二十一、二章：出现次数超过一半，最短摘要生成问题

毕业论文正好需要提取摘要啊，正好给我碰到这篇文章，非常难得，果断珍藏起来：http://blog.csdn.net/v_july_v/article/details/6890054 第二十一~二十二章：出现次数超过一半的数字，最短摘要的生成前言咱们先来看两个问题：第一个问题来自编程之美上，Ta
复制链接

扫一扫