任务8、词频统计

最新推荐文章于 2023-11-02 11:26:56 发布

Hflowers

最新推荐文章于 2023-11-02 11:26:56 发布

阅读量250

点赞数 1

分类专栏： Java 文章标签： hadoop big data scala

本文链接：https://blog.csdn.net/qq_67308048/article/details/125196229

版权

Java 专栏收录该内容

18 篇文章 1 订阅

订阅专栏

文章目录

任务8、词频统计

任务8、词频统计

针对单词文本文件，统计每个单词出现的次数

hello hadoop hello spark
i love you hadoop and spark
i learn hadoop and scala

思路：读取文件，通过拆分得到单词数组，定义一个哈希映射保存词频统计结果，遍历单词数组，如果第一次遇到某个单词，就在哈希映射里添加一个元素，单词为键，1为值；如果不是第一次遇到，那么在哈希映射里找到该键，将其值加1……

（一）编程实现

在项目根目录里创建单词文本文件 - words.txt
在p03里创建t08子包，在子包里创建WordCount类
读取文件所有行
- 运行结果：
将文件行按空格拆分成单词数组
程序运行结果：
针对每行单词数组进行词频统计
按指定格式输出词频统计结果
利用Python的绘图库来绘制词频统计的直方图
查看完整代码：

package p03.t08;

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.util.HashMap;
import java.util.Map;

/**
 * 功能；词频统计
 * 作者：刘金花
 * 日期：2022 年06月09日
 */
public class WordCount {
    public static void main(String[] args) throws Exception {
        // 定义缓冲字符输入流
        BufferedReader br = new BufferedReader(new FileReader("words.txt"));
        //定义词频统计哈希映射
        Map<String,Integer> wc = new HashMap<>();
        // 定义行字符串变量
        String nextLine = "";
        // 读取文件，遍历所有行
        while ((nextLine = br.readLine()) != null) {
            // 按空格拆分，得到单词数组
            String[] words = nextLine.split(" ");
            // 遍历单词数组,进行单词计数
            for (String word : words) {
                wc.put(word,wc.containsKey(word)? wc.get(word) + 1 : 1);
            }
        }
        // 按照指定格式输出词频统计结果
        for (String key: wc.keySet()) {
            System.out.println("(" + key + "," + wc.get(key) + ")");
        }
    }
}