7-44 基于词频的文件相似度 (30 分)

7-44 基于词频的文件相似度 (30 分)

实现一种简单原始的文件相似度计算,即以两文件的公共词汇占总词汇的比例来定义相似度。为简化问题,这里不考虑中文(因为分词太难了),只考虑长度不小于3、且不超过10的英文单词,长度超过10的只考虑前10个字母。

输入格式:
输入首先给出正整数N(≤100),为文件总数。随后按以下格式给出每个文件的内容:首先给出文件正文,最后在一行中只给出一个字符#,表示文件结束。在N个文件内容结束之后,给出查询总数M(≤10
​4
​​ ),随后M行,每行给出一对文件编号,其间以空格分隔。这里假设文件按给出的顺序从1到N编号。

输出格式:
针对每一条查询,在一行中输出两文件的相似度,即两文件的公共词汇量占两文件总词汇量的百分比,精确到小数点后1位。注意这里的一个“单词”只包括仅由英文字母组成的、长度不小于3、且不超过10的英文单词,长度超过10的只考虑前10个字母。单词间以任何非英文字母隔开。另外,大小写不同的同一单词被认为是相同的单词,例如“You”和“you”是同一个单词。

输入样例:
3
Aaa Bbb Ccc

Bbb Ccc Ddd

Aaa2 ccc Eee
is at Ddd@Fff

2
1 2
1 3
输出样例:
50.0%
33.3%

思路

  1. 根据要求处理词语:单词长度在[3,10],超过10的部分只取10,非英文字母都视作分隔符;
  2. 处理词语的时候用一个set的数组来存放每个文件的词语;
  3. 输入了要对比的文件编号之后,将两个文件编号对应的词汇进行对比,记录重复的词汇数;
  4. 结果就是 ans = 重复的词汇数 / (两个文件词汇数之和-重复的词汇数)
#include <iostream>
#include <unordered_map>
#include <unordered_set>
#include <string>
using namespace std;
unordered_set<string> file_word[110];
int n,k;

void deal(string s,int file_no){//对一行内容进行处理
    string word;
    s += ".";//保证最后一个单词能录入
    for(int i=0;i<s.length();i++){
        if(isalpha(s[i])){
            if(word.size()<10)
                word += tolower(s[i]);
        }else {
            if(word.size()>2 && word.size()<11) //满足一个单词的长度就将这个单词的文件号记录
                file_word[file_no].insert(word);
            word.clear();
        }
    }
}

int main(){
#ifdef ONLINE_JUDGE
#else
    freopen("1.txt", "r", stdin);
#endif
    cin >> n;
    getchar();
    for(int i=1;i<=n;i++){
        string s;
        do{//处理词语
            getline(cin, s);
            deal(s,i);
        }while(s!="#");
    }
    cin >> k;
    for(int i=0;i<k;i++){
        int a,b;
        scanf("%d%d",&a,&b);
        int total = (int)file_word[a].size()+(int)file_word[b].size();//总词数(包含重复)
        int common_cnt = 0;//重复数
        for(auto it:file_word[a]){
            if(file_word[b].find(it)!=file_word[b].end()){
                common_cnt++;
                total--;
            }
        }
        printf("%.1lf%%\n",total==0?0:common_cnt*100.0/total);
    }
    return 0;
}

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值