编程之美-最短摘要

2011年题目:

Alibaba笔试题:

给定一段产品的英文描述,包含M个英文字母,每个英文单词以空格分隔,无其他标点符号;再给定N个英文单词关键字,请说明思路并编程实现方法String extractSummary(String description,String[] key words),目标是找出此产品描述中包含N个关键字(每个关键词至少出现一次)的长度最短的子串,作为产品简介输出。(不限编程语言)20分。


人搜面试题:

1、求包含所有query的最短距离  

一篇文章,切完词之后放到一个vector<string>中,一个查询切完词也放到一个vector<string>中,写一个函数找出这篇文章中包含这个查询中所有词的最小区间的i和j。只要返回第一个即可。


解答:

这道笔试题和编程之美最短摘要生成的方法类似,先来看看这些序列:

w0,w1,w2,w3,q0,w4,w5,q1,w6,w7,w8,q0,w9,q1

     问题在于,如何一次把所有的关键词都扫描到,并且不遗漏。扫描肯定是无法避免的,但是如何把两次扫描的结果联系起来呢?这是一个值得考虑的问题。

     沿用前面的扫描方法,再来看看。第一次扫描的时候,假设需要包含所有的关键词,从第一个位置w0处将扫描到w6处:

w0,w1,w2,w3,q0,w4,w5,q1,w6,w7,w8,q0,w9,q1

     那么,下次扫描应该怎么办呢?先把第一个被扫描的位置挪到q0处。

w0,w1,w2,w3,q0,w4,w5,q1,w6,w7,w8,q0,w9,q1

     然后把第一个被扫描的位置继续往后面移动一格,这样包含的序列中将减少了关键词q0。那么,我们便可以把第二个扫描位置往后移,这样就可以找到下一个包含所有关键词的序列。即从w4扫描到w9处,便包含了q1,q0:

w0,w1,w2,w3,q0,w4,w5,q1,w6,w7,w8,q0,w9,q1

     这样,问题就和第一次扫描时碰到的情况一样了。依次扫描下去,在w中找出所有包含q的序列,并且找出其中的最小值,就可得到最终的结果。


#include <iostream>
#include <vector>
#include <string>
#include <set>
using namespace std;

bool FindShortestAbstract( const vector<string> & doc, const set<string> & query, int &a, int &b){
	set<string> notFind(query.begin(), query.end());
	a=0;b=0;
	int i=0,j=0;
	int shortest=0;
	int len= doc.size();
	while( i<len&&j<len ){
		set<string>::iterator it = notFind.find( doc[j++] );
		if( it!=notFind.end()) {             //如果找到了,则删除
			notFind.erase( it  );
		}
		if( notFind.empty() ){                //如果全部找到
			while( query.find(doc[i++])==query.end() ); //寻找第一个出现的query
			if( i>0 ){
				notFind.insert( doc[i-1] );
				if( shortest>j-i||shortest==0 )
					shortest = j-i;        //记录最小距离
					a=i-1;b=j-1;
			}
		}
	}
	if( shortest==0 )
		return false;
	return true;
}

int main(){
	string doc[]={"I", "love", "you", "and", "me", "do", "you", "like" , "me"};
	string query[]={ "you", "like", "me"};
	vector<string> d(doc,doc+sizeof(doc)/sizeof(string));
	set<string> q(query, query+sizeof(query)/sizeof(string));
	int a=0,b=0;
	FindShortestAbstract( d,q,a,b);
	cout <<a<<endl<<b<<endl;
	return 0;
}


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: Pregel模型是一种分布式图计算模型,用于处理大规模图数据。s-t最短路径问题是在一个有向加权图中,给定起点s和终点t,求出从s到t的最短路径。 下面是使用Pregel模型解决s-t最短路径问题的思路: 1. 将图分成多个分区,每个分区包含若干个顶点和边。每个分区可以在不同的机器上运行,从而实现并行计算。 2. 每个顶点持有一个值,表示从起点s到该顶点的最短距离。起点s的值为0,其他顶点的值为无穷大。 3. 以起点s为初始节点,向它的所有邻居节点发送消息,消息内容是从起点s到该节点的距离值。每个节点接收到来自邻居节点的消息后,将其与自己的值相加,如果和小于当前值,则更新自己的值。 4. 在下一轮迭代中,每个节点向它的邻居节点再次发送消息。如果节点的值发生了改变,则继续进行迭代,否则停止。 5. 最终,当所有节点的值不再发生改变时,算法结束。此时,终点t的值就是从起点s到终点t的最短距离。 在Pregel模型中实现s-t最短路径问题的关键是如何将消息传递和节点更新操作进行并行化。具体实现可以参考Pregel算法的框架,例如Google Pregel或Apache Giraph。 ### 回答2: Pregel模型是一种用于大规模图计算的并行计算模型,可以用于求解s-t最短路径问题。下面是在Pregel模型下实现s-t最短路径问题的思路: 1. 初始化:首先,将图中的所有节点的距离值初始化为无穷大(除了起始节点s的距离值初始化为0),将所有节点的状态设置为“活跃”。 2. 迭代计算:在每轮迭代中,对于所有活跃节点,处理如下步骤: a. 对于当前活跃节点v,计算v到其邻居节点u的距离(即通过v到达u的边的权重)加上v的当前距离,得到新的距离值dist。 b. 如果dist小于u的当前距离,则更新u节点的距离值为dist,并将u设置为“活跃”状态。 3. 终止条件:当没有节点被标记为“活跃”时,迭代结束。 4. 输出结果:最后,从终点t开始,沿着最短路径依次回溯,输出到起点s的最短路径。 在Pregel模型中,每轮迭代由一系列超步(superstep)组成,每个超步包含三个阶段:计算、通信和聚合。以上描述的算法思路可以转化为Pregel模型中的计算阶段的实现。具体实现时,可以使用消息传递的方式,将节点之间的计算结果进行通信和聚合。 总之,在Pregel模型下编程实现s-t最短路径问题,需要先进行初始化,然后通过迭代计算每个节点的距离值,并将更新后的值进行消息传递和聚合,直到收敛为止。最终可以从终点t开始回溯,输出s-t的最短路径。 ### 回答3: 在Pregel模型下编程实现s-t最短路径问题的思路如下: 1. 初始步骤: - 将图中的每个节点初始化为一个无穷大的距离值,只有起点s的距离初始化为0。 - 将起点s标记为活跃点(active),其他节点标记为非活跃点。 2. 迭代步骤: - 对于每个活跃点,将其距离值发送给其邻居节点。 - 每个活跃点接收所有邻居节点发送的距离值,并更新自身的距离值为最小值。 - 将更新后的距离值发送给邻居节点。 - 重复上述步骤,直到所有节点都成为非活跃点,即没有进一步的更新可以进行。 3. 终止步骤: - 检查终点t的距离值,如果其仍然为无穷大,则表示起点s无法到达终点t,算法结束。 - 否则,根据距离值逆向追踪找到s到t的最短路径。 在Pregel模型下,每个节点只需要关注与自己相关的信息,而不需要感知整个图,因此可以实现并行计算。每个节点在每个迭代步骤中,根据自身接收到的距离值来更新自己的距离值,并将更新后的距离值发送给邻居节点。这样,所有节点可以同时进行计算,直到没有进一步的更新可进行为止。 需要注意的是,Pregel模型需要一个消息缓冲区来存储各节点之间的消息传递。在每个迭代步骤中,所有节点都需要将自己的消息发送到缓冲区,并接收缓冲区中的消息。实现时可以使用分布式计算框架如Apache Giraph或GraphLab等。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值