7-44 基于词频的文件相似度 (30分)

最新推荐文章于 2023-02-03 11:56:53 发布

摺耳喵

最新推荐文章于 2023-02-03 11:56:53 发布

阅读量943

点赞数 3

分类专栏： PTA数据结构与算法题目集

本文链接：https://blog.csdn.net/qq_45798109/article/details/108522305

版权

该博客介绍了一种简单的文件相似度计算方法，通过比较两个文件中公共词汇的比例来确定它们的相似度。计算时仅考虑长度3至10的英文单词，忽略中文并标准化大小写。输入包含多个文件内容和查询对，输出为相似度百分比。

摘要由CSDN通过智能技术生成

实现一种简单原始的文件相似度计算，即以两文件的公共词汇占总词汇的比例来定义相似度。为简化问题，这里不考虑中文（因为分词太难了），只考虑长度不小于3、且不超过10的英文单词，长度超过10的只考虑前10个字母。

输入格式:
输入首先给出正整数N（≤100），为文件总数。随后按以下格式给出每个文件的内容：首先给出文件正文，最后在一行中只给出一个字符#，表示文件结束。在N个文件内容结束之后，给出查询总数M（≤10^4 ），随后M行，每行给出一对文件编号，其间以空格分隔。这里假设文件按给出的顺序从1到N编号。

输出格式:
针对每一条查询，在一行中输出两文件的相似度，即两文件的公共词汇量占两文件总词汇量的百分比，精确到小数点后1位。注意这里的一个“单词”只包括仅由英文字母组成的、长度不小于3、且不超过10的英文单词，长度超过10的只考虑前10个字母。单词间以任何非英文字母隔开。另外，大小写不同的同一单词被认为是相同的单词，例如“You”和“you”是同一个单词。

输入样例:

3
Aaa Bbb Ccc
#
Bbb Ccc Ddd
#
Aaa2 ccc Eee
is at Ddd@Fff
#
2
1 2
1 3

输出样例:

50.0%
33.3%

#include <iostream>
#include <string>
#include <map>
using namespace std;

int N, M, same[101][101], cnt[101], a, b;
map<string, bool> mp[101];

int main() {
   
	cin >> N;
	for (int i = 1; i <= N; ++i) {
   
		string str;
		char s;
		while ((s = tolower(getchar())) !=