数据结构与算法题目集7-44——基于词频的文件相似度

最新推荐文章于 2023-01-28 15:57:38 发布

清風逐尘乀

最新推荐文章于 2023-01-28 15:57:38 发布

阅读量2.1k

点赞数 1

分类专栏：数据结构与算法题目集文章标签：数据结构与算法题目集字符串 set集合的应用基于词频的文件相似度

本文链接：https://blog.csdn.net/qq_41231926/article/details/84918684

版权

该博客介绍了如何使用C++解决基于词频计算文件相似度的问题，涉及字符串处理和set集合应用。通过getchar()逐字符读取文件，将单词存储在set中，然后比较两个文件的set集合交集来评估相似度。

摘要由CSDN通过智能技术生成

我的数据结构与算法题目集代码仓：https://github.com/617076674/Data-structure-and-algorithm-topic-set

原题链接：https://pintia.cn/problem-sets/15/problems/891

题目描述：

知识点：字符串、set集合的应用

思路：用getchar()函数一个一个字符地读取并分隔

将每个文件读取到的单词都放进一个set集合里，查询时遍历其中一个set集合的所有元素，在另一个set集合里查找，如果找到，则相同字符数common加1，总字符数为两个set集合之和减去common。

时间复杂度与空间复杂度和输入的数据有关。

C++代码：

#include<iostream>
#include<string>
#include<set>

using namespace std;

set<string> sets[100];

int main() {
	int N;
	scanf("%d", &N);
	getchar();
	for

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

清風逐尘乀

关注关注

1
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

信息检索简介——文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等

AI天才研究院

08-07

820

2005年8月17日至9月3日在美国加利福尼亚州伯克莱纳举行了SIGIR国际会议（中文全称“计算机信息retrieval国际会议”），这是信息检索领域的顶级会议之一。该会议由ACM主办，主题涵盖了包括文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等多个热门方向。此次会议是第一次将信息检索作为一个学科，并取得重大突破。本文试图对SIGIR进行一个完整的介绍，阐述其发展历史、相关术语、发表论文数量、会议规模、参会学者背景及主要研究方向。

MATLAB算法实战应用案例精讲-【数模应用】特征工程（补充篇）

qq_36130719的博客

09-05

505

特征重要性，可以被认为是一个选择特征重要的评价方法。特征可以被分配一个分值，然后按照这个分值排序，那些具有较高得分的特征可以被选出来包含在训练集中，同时剩余的就可以被忽略。特征重要性得分可以帮助我们抽取或者构建新的特征。挑选那些相似但是不同的特征作为有用的特征。如果一个特征与因变量（被预测的事物）高度相关，那么这个特征可能很重要。相关系数和其他单变量的方法（每一个变量被认为是相互独立的）是比较通用的评估方法。更复杂的方法是通过预测模型算法来对特征进行评分。

参与评论您还未登录，请先登录后发表或查看评论

PTA 数据结构与算法 7-44 基于词频的文件相似度

番大白菜

07-12

1477

如有不对，不吝赐教进入正题：实现一种简单原始的文件相似度计算，即以两文件的公共词汇占总词汇的比例来定义相似度。为简化问题，这里不考虑中文（因为分词太难了），只考虑长度不小于3、且不超过10的英文单词，长度超过10的只考虑前10个字母。输入格式: 输入首先给出正整数N（≤100），为文件总数。随后按以下格式给出每个文件的内容：首先给出文件正文，最后在一行中只给出一个字符#，表示文件结束。在N个...

PTA数据结构与算法编程题目集 7-44 基于词频的文件相似度 （30 分)

qq_43189757的博客

03-27

1615

7-44 基于词频的文件相似度 （30 分) 实现一种简单原始的文件相似度计算，即以两文件的公共词汇占总词汇的比例来定义相似度。为简化问题，这里不考虑中文（因为分词太难了），只考虑长度不小于3、且不超过10的英文单词，长度超过10的只考虑前10个字母。输入格式: 输入首先给出正整数N（≤100），为文件总数。随后按以下格式给出每个文件的内容：首先给出文件正文，最后在一行中只给出一个字符#，表示文...

【PTA】数据结构与算法题目集 7-44 基于词频的文件相似度

weixin_38289567的博客

03-03

440

#include<stdio.h> #include<string> #include<set> #include<iostream> using namespace std; const int MAXN=110; set<string> ans[MAXN]; bool isValid(char c){ if((c>=...

数据结构课程设计-基于词频的文件相似度

07-15

数据结构PTA习题：进阶实验5-3.3 基于词频的文件相似度 (30分)

wulila的博客

04-28

3084

进阶实验5-3.3 基于词频的文件相似度 (30分) 实现一种简单原始的文件相似度计算，即以两文件的公共词汇占总词汇的比例来定义相似度。为简化问题，这里不考虑中文（因为分词太难了），只考虑长度不小于3、且不超过10的英文单词，长度超过10的只考虑前10个字母。输入格式: 输入首先给出正整数N（≤100），为文件总数。随后按以下格式给出每个文件的内容：首先给出文件正文，最后在一行中只给出一个字符#...

中国科学院大学——2020年信息检索导论期末考试试题-final_final期末考试

01-14

- **倒排索引结构**：倒排索引是一种数据结构，用于快速定位包含特定关键词的文档。选项C提到“词典中存储的都是词”，这并不完全准确。实际上，词典中不仅包含词项本身，还可能包含词项的统计信息，如频率等。 - **...

MATLAB算法实战应用案例精讲-【数模应用】概率生成模型（Generative Model）

qq_36130719的博客

01-28

1086

一个生成模型可以大致定义如下：生成模型根据概率模型描述了数据集是如何生成的。通过从该模型中采样，我们能够生成新数据。假设有一个包含马图像的数据集。希望构建一个模型且该模型可以生成从未存在但看起来仍然真实的马的新图像，因为该模型已经了解了控制马外观的一般规则。这种问题可以使用生成建模来解决。下图显示了一个典型的生成建模过程的总结。首先，需要一个由尝试生成的实体的许多示例组成的数据集。这个被称为训练数据，一个这样的数据点被称为观察。每个观察包含许多特征，对于图像生成问题，特征通常是单个像素值。

C语言版文件相似度对比，文本对比，数据结构大作业，采用矩阵对比

01-07

C语言版文件相似度对比，文本对比 数据结构C语言大作业采用递归矩阵对比，用了结构体

大型文件中词频的统计

07-14

对文件进行词频统计，最终按照单词出现次数排序输出前100个，并且将统计好的单词写入另一个文件

非常经典的数据结构和算法习题和答案

03-01

非常经典的数据结构和算法习题集及答案，文字排版，非常精致。学习算法的同学可以看一下

进阶实验5-3.3 基于词频的文件相似度 (30 分)

qq_45471462的博客

08-01

747

进阶实验5-3.3 基于词频的文件相似度 进阶实验5-3.3 基于词频的文件相似度 你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设计，将会带来全新的写作体验；在创作中心设置你喜爱的代码高亮样式，Markdown

7-44 基于词频的文件相似度 (30分)

qq_45798109的博客

09-10

988

实现一种简单原始的文件相似度计算，即以两文件的公共词汇占总词汇的比例来定义相似度。为简化问题，这里不考虑中文（因为分词太难了），只考虑长度不小于3、且不超过10的英文单词，长度超过10的只考虑前10个字母。输入格式: 输入首先给出正整数N（≤100），为文件总数。随后按以下格式给出每个文件的内容：首先给出文件正文，最后在一行中只给出一个字符#，表示文件结束。在N个文件内容结束之后，给出查询总数M（≤10^4 ），随后M行，每行给出一对文件编号，其间以空格分隔。这里假设文件按给出的顺序从1到N编号。

7-44 基于词频的文件相似度 (30 分)

姚军

11-16

634

集合数组先检查输入的单词是否分割正确，再进行统计。注意点：单词大小写不敏感单词长度大于2且小于等于10，以非字母分割。两个文件的单词总量如果有相同的单词，只统计一次。 #include <cstdio> #include <algorithm> #include <string> #include <iostream> #include...

PTA5-11 基于词频的文件相似度

iroy33的博客

03-09

1327

5-11 基于词频的文件相似度 (30分) 实现一种简单原始的文件相似度计算，即以两文件的公共词汇占总词汇的比例来定义相似度。为简化问题，这里不考虑中文（因为分词太难了），只考虑长度不小于3、且不超过10的英文单词，长度超过10的只考虑前10个字母。输入格式: 输入首先给出正整数NN（\le 100≤100），为文件总数。随后按以下格式给出每个文件的内容：首先给出文件正文，最后在一行中只给...

数据结构与算法题目集（中文） - 7-44 基于词频的文件相似度（30 分）

陆氪和他的那些代码

07-27

1952

题目链接：点击打开链接题目大意：略。解题思路： 1、单词筛选（考虑长度）并统一大或小写。 2、set 自带去重统计 + st.size()（用 set 存放且用 set 统计）。 3、注意：一开始存放的时候，直接去重。 4、用 set count 来做最后的统计，否则用其他容器统计完又清空会TLE。 AC 代码 #include<bits/stdc++.h...

C/C++基于词频的文件相似度

程序设计

07-05

125

题目2.哈希表设计【难度系数】2 【问题描述】某购物系统中购物表记录数量很大，现为该表中的"人名"设计一个哈希表。假设人名为中国人姓名的汉语拼音形式。待填入哈希表的人名共有30000个。自选一个哈希函敬，选择一种探测法处理哈希冲突。【文件数据格式】用户名称商品名称购买时间购买数量 Zhangsan 衣服 2017/6/18 2 【基本要求】命令1:导入文件，显示所有数据命令2:构建哈希表，展示哈希表结果命令3:输入一个姓名，若查询的到，则输出该用户的信息，并显示查找次数。否则提示无此记

pta数据结构与算法题目集(中文) 词频统计