Mapreduce分布式处理

mapreduce

Mapreduce是Hadoop的核心框架之一
Mapreduce是分布式处理的框架
HDFS与MApreduce最大的特点就是分布式 
简单的说一个庞大的数据 用一台计算机完成不了的计算数据 交给了多台计算机一起计算 最后合并各个计算机的结果 输出结果
mapreduce可以分成两大部分 map 和 reduce
map 是将数据切片
reduce 就是将数据合并

举一个例子: 在期末考试完 系主任要求要总分数最高的学生的名字 一个系的学生有很多 如果把这麽多数据交给主任 主任需要很长时间才能找出最高的学生信息 如果让每个批改试卷的老师 报告出他们批改试卷的最高成绩 然后主任把数据合并出来 很快就找出成绩最高的学生 这样效率就很高

利用mapreduce 做wordcount步骤

1.首先需要在给HDFS上传一个文件 其中还有单词的文件
在linux中启动hadoop start-dfs.sh
启动完成后 上传你在linux中创建的文件 hdfs dfs -put 目标文件 目标路径 ----上传
2.在eclipse中穿件Mapreduce project
3.我们需要创建三个类
mapper 拆分文件
reduce 合并数据
job 负责启动mapper 和reduce 这两个进程

Mymapper类

在这里插入图片描述

Myreduce类

在这里插入图片描述

Job 类

在这里插入图片描述

HDFS中的一些命令

hdfs dfs -mkdir 目录     -----创建目录
        hdfs dfs -put 目标文件   目标路径  ----上传
        hdsf dfs -get 目标文件 目标路径  -----下载
        hdfs dfs -ls 目录  ------查看目录下的文件
        hdfs dfs -cat 文件   --查看文件内容
        hdfs dfs -rmr 文件   --删除文件
        hdfs dfs -mv  改名称的文件路径  要改成的文件路径

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值