词频统计
参看本博《经典案例【词频统计】十一种实现方式》
针对单词文本文件,统计每个单词出现的次数
hello hadoop hello spark
i love you hadoop and spark
i learn hadoop and scala
思路:读取文件,通过拆分得到单词数组,定义一个哈希映射保存词频统计结果,遍历单词数组,如果第一次遇到某个单词,就在哈希映射里添加一个元素,单词为键,1为值;如果不是第一次遇到,那么在哈希映射里找到该键,将其值加1……
(一)编程实现
在项目根目录里创建单词文本文件 - words.txt
在net.nieyourong.p03里创建t08子包,在子包里创建WordCount类
读取文件所有行
将文件行按空格拆分成单词数组