7-44 基于词频的文件相似度 (30 分)

集合数组

先检查输入的单词是否分割正确,再进行统计。
注意点:

  1. 单词大小写不敏感
  2. 单词长度大于2且小于等于10,以非字母分割。
  3. 两个文件的单词总量如果有相同的单词,只统计一次。
#include <cstdio>
#include <algorithm>
#include <string>
#include <iostream>
#include <unordered_set>
#include <cctype>

using namespace std;
const int N = 105;
unordered_set<string> st[N];
void to_lower(string &str){
	for(auto &c: str) c = tolower(c);
}
int main(){
	int n;
	string s, temp;
	scanf("%d", &n);
	getchar();
	for(int i = 1; i <= n; i++){
		while(1){
			getline(cin, s);
			if(s=="#") break;
			to_lower(s);
			for(int j = 0; j < s.size();){
				int k = j;
				while(k < s.size() && isalpha(s[k])) k++;
				if(k-j >= 3) {
					temp = s.substr(j, min(10, k-j));
					st[i].insert(temp);
				}
				while(k < s.size() && !isalpha(s[k])) k++;
				j = k;
			}
			
		}	
	}
	int m, p, q;
	scanf("%d", &m);
	while(m--){
		scanf("%d%d", &p, &q);
		int tt = 0, ss = 0;
		for(auto it: st[p]){
			if(st[q].count(it)) ss++;
		}
		printf("%.1f%%\n", ss*100.0/(st[p].size()+st[q].size()-ss));
	}
	return 0;
} 
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值