【PTA】数据结构与算法题目集 7-44 基于词频的文件相似度

 

#include<stdio.h>
#include<string>
#include<set> 
#include<iostream>
using namespace std;
const int MAXN=110;
set<string> ans[MAXN];
bool isValid(char c){
	if((c>='a'&&c<='z')||(c>='A'&&c<='Z')){
		return true;
	}
	return false;
}
//小写转成大写;
void change(string& str){	
	for(int i=0;i<str.length();i++){
		if(str[i]>='A'&&str[i]<='Z'){
			str[i]+=32; 
		}
	}  
}
//用非有效字符分割 
void split(string str,set<string>& ans){
	int first=0,last=0;
	string temp;
	while(last<str.length()){		
		if(isValid(str[last])){
			temp+=str[last];
			last++;
		}else{
			if(temp.length()>=3){
				temp=temp.substr(0,10);//长度超过10的截断 
				ans.insert(temp);				
			}
			last++;
			first=last;
			temp.clear();
		}
	}
	if(temp.length()>=3){
		temp=temp.substr(0,10);
		ans.insert(temp);//分割的最后一段 
	}
}
int n;
int main(){
	scanf("%d%*c",&n);
	for(int i=1;i<=n;i++){
		while(1){
			string str;
			getline(cin,str);
			if(str=="#")break;
			change(str);
			split(str,ans[i]);
		}
	} 
	int k;
	scanf("%d",&k);
	for(int i=0;i<k;i++){
		int u,v;
		scanf("%d%d",&u,&v);
		int same=0;
		for(set<string>::iterator it=ans[u].begin();it!=ans[u].end();it++){
			if(ans[v].find(*it)!=ans[v].end())same++;
		}
		printf("%.1f%%\n",100.0*same/(ans[v].size()+ans[u].size()-same));
	}

	return 0;
}

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值