最短摘要的生成

《编程之美》第3.5节:最短摘要的生成

题目:假设给定的已经是经过网页分词之后的结果,词语序列数组为T。假设用户输入的搜索关键词为数组S。这样生成的最短摘要实际上就是一串相互联系的分词序列。

解法:遍历一遍输入序列T,将T中与S字符相同的字符的下标放入数组中,然后从这个数组中不断读出单词,放入集合ses中,当ses的大小等于S.size()时,说明已经找到一个短的摘要了,更新length。如果已经遍历了length个单词,让然没有找到,就放弃当前遍历,因为即使后面找到了,长度也不可能比length小了。

代码:

#include<iostream>
#include<string>
#include<vector>
#include<queue>
#include<set>
using namespace std;

//返回最短摘要[begin,end)注意是左闭右开的区间
pair<int,int> generateAbstract(vector<string> &T,vector<string> &S)
{
	int length=INT_MAX;
	int begin=0,end=0;
	vector<int> candidate;
	for(size_t i=0;i<T.size();i++)
	{
		if(find(S.begin(),S.end(),T[i])!=S.end())
			candidate.push_back(i);
	}
	for(size_t i=0;i<candidate.size();i++)
	{
		set<string> ses;
		for(int j=i;j<candidate.size();j++)
		{
			ses.insert(T[candidate[j]]);
			if(length<candidate[j]-candidate[i]+1)//如果到当前为止,已经超过了最小长度的范围,则肯定要排除
				continue;
			if(ses.size()==S.size() && length>candidate[j]-candidate[i]+1)
			{
				begin=candidate[i];
				end=candidate[j]+1;
				length=end-begin+1;
			}
		}
	}
	return pair<int,int>(begin,end);
}

int main()
{
	vector<string> T;
	vector<string> S;
	freopen("input.txt","r",stdin);
	string inputString;
	while(cin>>inputString)
		T.push_back(inputString);
	cin.clear();
	freopen("inputS.txt","r",stdin);
	while(cin>>inputString)
		S.push_back(inputString);
	fclose(stdin);
	freopen("CON", "r", stdin);
	cout<<cin.eof()<<endl;
	cin.clear();//注意这里要用clear把cin.eof位清除掉
	cout<<cin.eof()<<endl;
//	cin.sync();
	pair<int,int> result=generateAbstract(T,S);

	for(int i=result.first;i<result.second;i++)
		cout<<T[i];
	cout<<endl;

	system("pause");
	return 0;
}
输入序列:input.txt

微软 亚洲 研究院 成立 于 1998 年 , 我们 的 使命 是 使 未来 的 计算机 能够 看 、 听 、 学 , 能 用 自然语言 与 人类 进行 交流 
。 在 此 基础 上 , 微软 亚洲 研究院 还 将 促进 计算机 在 亚太 地区 的 普及 , 改善 亚太 用户 的 计算 体验

inputS.txt:

微软 亚洲 研究院 使命

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值