CCF-CSP 2024.03 - 相似度计算 Java满分解题

最新推荐文章于 2024-07-14 22:18:32 发布

SUGERBOOM

最新推荐文章于 2024-07-14 22:18:32 发布

阅读量785

点赞数 9

分类专栏： CSP认证文章标签： java 开发语言算法

本文链接：https://blog.csdn.net/goldfish8848/article/details/139323687

版权

CSP认证专栏收录该内容

5 篇文章 0 订阅

订阅专栏

import java.util.HashSet;
import java.util.Scanner;
import java.util.Set;

public class text202403_02_Similarity {
    public static void main(String[] args) {
        Scanner scanner = new Scanner(System.in);
        // 读取两篇文章的单词个数
        int n = scanner.nextInt(); // 第一篇文章的单词个数
        int m = scanner.nextInt(); // 第二篇文章的单词个数
        scanner.nextLine(); // 消耗换行符

        // 创建两个Set集合，用于存储两篇文章的单词，自动去重
        Set<String> setA = new HashSet<>();
        Set<String> setB = new HashSet<>();

        // 读取第一篇文章的单词，转换为小写并添加到SetA中
        String lineA = scanner.nextLine();
        String[] wordsA = lineA.toLowerCase().split("\\s+");
        for (String word : wordsA) {
            setA.add(word);
        }

        // 读取第二篇文章的单词，转换为小写并添加到SetB中
        String lineB = scanner.nextLine();
        String[] wordsB = lineB.toLowerCase().split("\\s+");
        for (String word : wordsB) {
            setB.add(word);
        }

        // 计算交集
        Set<String> intersection = new HashSet<>(setA);
        intersection.retainAll(setB);

        // 计算并集
        Set<String> union = new HashSet<>(setA);
        union.addAll(setB);

        // 输出结果
        System.out.println(intersection.size()); // 输出交集的大小
        System.out.println(union.size()); // 输出并集的大小

        scanner.close();
    }
}

思路详解：

1. **读取输入**：
- 首先，程序从标准输入读取两篇文章的单词个数，分别是`n`和`m`。在输入第二个整数后需要将换行符消耗掉。

2. **创建集合**：
- 接着，程序创建两个`HashSet`集合，分别命名为`setA`和`setB`，用于存储两篇文章中的单词。

3. **处理第一篇文章的单词**：
- 读取第一篇文章的所有单词，并将它们转换为小写形式以忽略大小写差异。
- 将转换后的单词添加到`setA`集合中。由于`HashSet`的特性，会自动去除重复的单词，保证每个单词只被添加一次。

4. **处理第二篇文章的单词**：
- 类似地，读取第二篇文章的所有单词，并将它们转换为小写形式。
- 将转换后的单词添加到`setB`集合中。

5. **计算交集**：
- 为了计算两篇文章共同出现的单词数量（交集），程序创建一个新的`HashSet`集合`intersection`，初始化为`setA`的一个副本。
- 使用`retainAll()`方法，将`intersection`和`setB`进行比较，只保留同时存在于`setA`和`setB`中的元素。

6. **计算并集**：
- 为了计算两篇文章中所有不同单词的数量（并集），程序创建一个新的`HashSet`集合`union`，初始化为`setA`的一个副本。
- 使用`addAll()`方法，将`setB`中的元素添加到`union`中，这样`union`就包含了两篇文章中的所有不同单词。

7. **输出结果**：
- 最后，程序输出交集`intersection`的大小，即共同出现的单词数量。
- 接着输出并集`union`的大小，即两篇文章中所有不同单词的数量。

### 处理单词部分

1. **读取单词**：
- 程序首先读取两篇文章的单词个数，分别是`n`和`m`。这是为了知道接下来需要读取多少个单词。

2. **转换为小写**：
- 由于题目要求忽略英文字母的大小写区别，程序在读取单词后将它们转换为小写形式。这是通过调用`toLowerCase()`方法实现的。

3. **分割单词**：
- 输入的单词是以空格分隔的字符串。程序使用`split("\\s+")`方法将字符串分割成单词数组。这里的正则表达式`"\\s+"`匹配一个或多个空白字符，确保即使单词之间有多个空格也能正确分割。

4. **存储单词**：
- 单词被添加到`HashSet`集合中。`HashSet`是一个不允许重复元素的集合，所以即使文章中有重复的单词，它们也只会在集合中出现一次。

5. **去重**：
- 由于使用了`HashSet`，程序自动处理了单词的去重工作。这意味着每篇文章的单词集合中不会有重复的单词。

### 计算交并集部分

1. **交集（AnB）**：
- 交集是指同时出现在两篇文章中的单词集合。程序通过创建`setA`的一个副本`intersection`，然后使用`retainAll(setB)`方法来实现。`retainAll`方法会从`intersection`中移除那些不在`setB`中的元素，最终`intersection`中剩下的就是两篇文章共有的单词集合。

2. **并集（AUB）**：
- 并集是指在两篇文章中出现过的所有不同单词的集合。程序通过创建`setA`的一个副本`union`，然后使用`addAll(setB)`方法将`setB`中的元素添加到`union`中来实现。`addAll`方法会将`setB`中的所有元素添加到`union`中，但不添加重复元素，因为`HashSet`不允许重复。

3. **输出大小**：
- 最后，程序输出`intersection.size()`和`union.size()`。这两个值分别表示交集和并集的大小，即共同出现的单词数量和两篇文章中所有不同单词的数量。

### 为什么使用HashSet？

- **性能**：`HashSet`提供了高效的元素查找和插入操作，因为它是基于哈希表实现的。
- **去重**：`HashSet`自动处理重复元素，这意味着不需要额外的逻辑来检查一个元素是否已经存在于集合中。
- **集合操作**：`HashSet`提供了方便的集合操作，如`retainAll`和`addAll`，这些操作对于计算交集和并集非常有帮助。