Mapreduce分布式处理

最新推荐文章于 2024-06-27 09:54:12 发布

ITLV007

最新推荐文章于 2024-06-27 09:54:12 发布

阅读量754

点赞数 1

本文链接：https://blog.csdn.net/ITLV007/article/details/92008981

版权

mapreduce

Mapreduce是Hadoop的核心框架之一

Mapreduce是分布式处理的框架
HDFS与MApreduce最大的特点就是分布式 
简单的说一个庞大的数据 用一台计算机完成不了的计算数据 交给了多台计算机一起计算 最后合并各个计算机的结果 输出结果
mapreduce可以分成两大部分 map 和 reduce
map 是将数据切片
reduce 就是将数据合并

举一个例子: 在期末考试完系主任要求要总分数最高的学生的名字一个系的学生有很多如果把这麽多数据交给主任主任需要很长时间才能找出最高的学生信息如果让每个批改试卷的老师报告出他们批改试卷的最高成绩然后主任把数据合并出来很快就找出成绩最高的学生这样效率就很高

利用mapreduce 做wordcount步骤

1.首先需要在给HDFS上传一个文件其中还有单词的文件
在linux中启动hadoop start-dfs.sh
启动完成后上传你在linux中创建的文件 hdfs dfs -put 目标文件目标路径 ----上传
2.在eclipse中穿件Mapreduce project
3.我们需要创建三个类
mapper 拆分文件
reduce 合并数据
job 负责启动mapper 和reduce 这两个进程

Mymapper类

在这里插入图片描述

Myreduce类

在这里插入图片描述

Job 类

在这里插入图片描述

HDFS中的一些命令

hdfs dfs -mkdir 目录     -----创建目录
        hdfs dfs -put 目标文件   目标路径 ----上传
        hdsf dfs -get 目标文件目标路径 -----下载
        hdfs dfs -ls 目录 ------查看目录下的文件
        hdfs dfs -cat 文件   --查看文件内容
        hdfs dfs -rmr 文件   --删除文件
        hdfs dfs -mv 改名称的文件路径要改成的文件路径

ITLV007

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
Mapreduce分布式处理

mapreduceMapreduce是Hadoop的核心框架之一Mapreduce是分布式处理的框架HDFS与MApreduce最大的特点就是分布式简单的说一个庞大的数据用一台计算机完成不了的计算数据交给了多台计算机一起计算最后合并各个计算机的结果输出结果mapreduce可以分成两大部分 map 和 reducemap 是将数据切片reduce 就是将数据合并举一个例...
复制链接

扫一扫