Mapreduce编程（一）-----WordCount程序编写及运行

最新推荐文章于 2024-08-15 10:08:48 发布

会编程的李较瘦

最新推荐文章于 2024-08-15 10:08:48 发布

阅读量1.2k

点赞数 4

分类专栏： Mapreduce编程文章标签： hadoop mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Allwordhuier/article/details/117224393

版权

Mapreduce编程专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、MapReduce概述

1.核心思想

MapReduce的核心思想是“分而治之”，就是把一个复杂的问题，按照一定的“分解”方式分为等价的规模较小的若干部分，然后逐个解决，分别找出各部分的结果，把各部分的结果组成整个问题的结果。

2.Map和Reduce阶段介绍

Map Reduce作为一种分布式计算模型，它主要用于解决海量数据的计算问题。使用MapReduce分析海量数据时，每个MapReduce程序被初始化为一个工作任务，每个工作任务可以分为Map和Reduce两个阶段，具体介绍如下：

(1)Map阶段

负责将任务进行分解，处理数据，为reduce端做准备。

(2)Reduce阶段

进行汇总操作，得到最终结果

二、MapReduce编程模型

1.将原始数据处理成键值对<K1,V1>形式
2.将解析后的键值对<K1,V1>传给map()函数，map()函数会根据映射规则，将键值对<K1,V1>映射为一系列中间结果形式的键值对<K2,V2>.
3.将中间形式的键值对<K2,V2>形成<K2,{v2,……}>形式传给reduce()函数处理，把具有相同key的value合并在一起，产生新的键值对<K3,V3>,此时的<K3,V3>就是最终输出结果。

三、WordCount编程实例

1.在IDEA中新建项目：File—>New—>Project

在这里插入图片描述

在这里插入图片描述

2.创建lib文件夹：选中项目名，右键new—>Directory

在这里插入图片描述

3.导入相关依赖jar包

选择hadoop的包，我用得是hadoop2.4.1。把下面的依赖包都加入到工程中，否则会出现某个类找不到的错误。

（1）”hadoop2.4.1/share/hadoop/common”目录下的hadoop-common-2.4.1.jar和haoop-nfs-2.4.1.jar；

（2）hadoop2.4.1/share/hadoop/common/lib”目录下的所有JAR包；

（3）hadoop2.4.1/share/hadoop/hdfs”目录下的haoop-hdfs-2.41.jar和haoop-hdfs-nfs-2.4.1.jar；

（4）“hadoop2.4.1/share/hadoop/hdfs/lib”目录下的所有JAR包。

4.将第3步中添加的外部jar添加到IntelliJ IDEA项目

选中lib文件夹—>右键—>add as library
在这里插入图片描述

会编程的李较瘦

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
4
评论
Mapreduce编程（一）-----WordCount程序编写及运行

一、MapReduce概述 MapReduce的核心思想是“分而治之”，就是把一个复杂的问题，按照一定的“分解”方式分为等价的规模较小的若干部分，然后逐个解决，分别找出各部分的结果，把各部分的结果组成整个问题的结果。 Map Reduce作为一种分布式计算模型，它主要用于解决海量数据的计算问题。使用MapReduce分析海量数据时，每个MapReduce程序被初始化为一个工作任务，每个工作任务可以分为Map和Reduce两个阶段，具体介绍如下：List item...
复制链接

扫一扫

专栏目录

会编程的李较瘦

CSDN认证博客专家 CSDN认证企业博客

码龄7年

25: 原创

6万+: 周排名

6万+: 总排名

4万+: 访问

: 等级

539: 积分

1207: 粉丝

195: 获赞

30: 评论

313: 收藏

私信

关注

热门文章

分类专栏

最新评论

Hadoop开发之JavaAPI操作HDFS
艾思科蓝 AiScholar: 优质好文，博主的文章细节很到位【您好，有兴趣谈一下合作吗~私信我详细聊！】
idea运行出现：命令行过长。通过 JAR 清单或通过类路径文件缩短命令错误
王开全T1: 不是哥们，中文看着不难受吗
Hadoop3.1.4完全分布式集群搭建
普通网友: 干货满满！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
Mysql8.3.0的安装（保姆级）
prettymouse_13: 我是win7系统，在根目录(F:\mysql\mysql-8.3.0-winx64) 创建了my.ini（如下），提示错误： F:\mysql\mysql-8.3.0-winx64\bin>mysqld --initialize --console mysqld: [ERROR] Found option without preceding group in config file F ql-8.3.0-winx64\my.ini at line 1. mysqld: [ERROR] Fatal error in defaults handling. Program aborted! [mysql] # 设置mysql客户端默认字符集 default-character-set=utf8 [mysqld] #设置3306端口 port = 3306 # 设置mysql的安装目录 basedir=F:\mysql\mysql-8.3.0-winx64 # 设置mysql数据库的数据的存放目录 #datadir=F:\mysql\mysql-8.3.0-winx64\data # 允许最大连接数 max_connections=200 # 服务端使用的字符集默认为8比特编码的latin1字符集 character-set-server=utf8 # 创建新表时将使用的默认存储引擎 default-storage-engine=INNODB
Mysql8.3.0的安装（保姆级）
会编程的李较瘦: 是不是3306端口号被其他进程占用了，换个端口号试一下

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

会编程的李较瘦 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。