词频统计。。。

李信229

已于 2022-06-09 23:50:14 修改

阅读量243

点赞数

文章标签：词频统计 Java 哈希映射编程实现降序排列

于 2022-06-09 21:40:12 首次发布

本文链接：https://blog.csdn.net/qq_67308057/article/details/125210872

版权

文章目录

任务8.词频统计

任务8.词频统计

参看本博《经典案例【词频统计】十一种实现方式》
针对单词文本文件，统计每个单词出现的次数

hello hadoop hello spark
i love you hadoop and spark
i learn hadoop and scala

思路：读取文件，通过拆分得到单词数组，定义一个哈希映射保存词频统计结果，遍历单词数组，如果第一次遇到某个单词，就在哈希映射里添加一个元素，单词为键，1为值；如果不是第一次遇到，那么在哈希映射里找到该键，将其值加1……

编程实现

在项目根目录创建单词文本-words.txt

在这里插入图片描述

在net.huawei.p03里创建t08子包，在子包里创建WordCount类
读取文件所有行
将文件行按空格拆分成单词数组
针对每行单词数组进行词频统计
按指定格式输出词频统计结果
利用Python的绘图库来绘制词频统计的直方图

查看完整代码

package net.lixin.p03.t08;

import java.io.BufferedReader;
import java.io.FileReader;
import java.util.HashMap;
import java.util.Map;

/**
 * 功能
 * 作者：李信
 * 日期：2022年06月09日
 */
public class WordCount {
    public static void main(String[] args) throws  Exception{
        //定义缓冲字符输入流
        BufferedReader br = new BufferedReader(new FileReader("words.txt"));
        //定一个词频统计哈希映射
        Map<String, Integer>wc =new HashMap<>();
        //定义行字符串变量
        String  nextLine="" ;
        //读取文件，遍历所有行
        while ((nextLine=br.readLine())!=null){
            //按空格拆分，得到单词数组
          String[] words=nextLine.split(" ");
            //遍历单词数组
           for (String word : words ){
               wc.put(word,wc.containsKey(word)? wc.get(word)+1:1);
        }
        }
        //按照指定格式输出词频统计结果
        for (String key: wc.keySet()){
            System.out.println("("+key+","+wc.get(key)+")");
        }
    }
}