Hadoop12：【案例】之使用Hadoop的MR(Map+Reduce)进行单词计数原理以及实现

做一个有趣的人Zz

已于 2022-03-02 08:14:59 修改

阅读量1.8k

点赞数 2

分类专栏： hadoop 文章标签： hadoop mr hdfs

于 2022-03-01 17:50:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40612128/article/details/123208692

版权

hadoop 专栏收录该内容

57 篇文章 2 订阅 ¥59.90 ¥99.00

订阅专栏

一、WordCount分析

接下来看这个图再重新梳理一下单词计数的执行流程
在这里插入图片描述
上面的是单个文件的执行流程，有一些现象看起来还是不明显
下面我们来看一个两个文件的执行流程

在这里插入图片描述

二、实战：WordCount案例开发

前面我们通过理论层面详细分析了单词计数的执行流程，下面我们就来实际上手操作一下。

大致流程如下：
第一步：开发Map阶段代码
第二步：开发Reduce阶段代码
第三步：组装Job

在idea中创建WordCountJob类

添加注释，梳理一下需求：
需求：读取hdfs上的hello.txt文件，计算文件中每个单词出现的总次数
hello.txt文件内容如下：

了解本专栏

做一个有趣的人Zz

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
1
评论
Hadoop12：【案例】之使用Hadoop的MR(Map+Reduce)进行单词计数原理以及实现

一、MapReduce之Map阶段mapreduce主要分为两大步骤 map和reduce，map和reduce在代码层面对应的就是两个类，map对应的是mapper类，reduce对应的是reducer类，下面我们就来根据一个案例具体分析一下这两个步骤假设我们有一个文件，文件里面有两行内容第一行是hello you第二行是hello me我们想统计文件中每个单词出现的总次数首先是map阶段第一步：框架会把输入文件(夹)划分为很多InputSplit，这里的inputsplit就是前面我们所
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

做一个有趣的人Zz 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。