统计所有词频

最新推荐文章于 2024-03-05 16:41:28 发布

扑通扑通滚下山

最新推荐文章于 2024-03-05 16:41:28 发布

阅读量89

点赞数

文章标签： hadoop scala big data

本文链接：https://blog.csdn.net/m0_65970993/article/details/125221568

版权

创建单词库

hello hadoop hello spark
i love you hadoop and spark
i learn hadoop and scala

读取文件所有行

在这里插入图片描述

将文件行按空格拆分成单词数组

在这里插入图片描述

针对每行单词数组进行词频统计

在这里插入图片描述

按指定格式输出词频统计结果

在这里插入图片描述

package net.huawei.p03.t08;

import java.io.BufferedReader;
import java.io.FileReader;
import java.util.HashMap;
import java.util.Map;


public class WordCount {
    public static void main(String[] args) throws Exception {
        // 定义缓冲字符输入流
        BufferedReader br = new BufferedReader(new FileReader("words.txt"));
        // 定义词频统计哈希映射
        Map<String, Integer> wc = new HashMap<>();
        // 定义行字符串变量
        String nextLine = "";
        // 读取文件，遍历所有行
        while ((nextLine = br.readLine()) != null) {
            // 按空格拆分，得到单词数组
            String[] words = nextLine.split(" ");
            // 遍历单词数组，进行单词计数
            for (String word: words) {
                wc.put(word, wc.containsKey(word)? wc.get(word) + 1 : 1);
            }
        }
        // 按照指定格式输出词频统计结果
        for (String key : wc.keySet()) {
            System.out.println("(" + key + "," + wc.get(key) + ")");
        }
    }
}