mapreduce
Mapreduce是Hadoop的核心框架之一
Mapreduce是分布式处理的框架
HDFS与MApreduce最大的特点就是分布式
简单的说一个庞大的数据 用一台计算机完成不了的计算数据 交给了多台计算机一起计算 最后合并各个计算机的结果 输出结果
mapreduce可以分成两大部分 map 和 reduce
map 是将数据切片
reduce 就是将数据合并
举一个例子: 在期末考试完 系主任要求要总分数最高的学生的名字 一个系的学生有很多 如果把这麽多数据交给主任 主任需要很长时间才能找出最高的学生信息 如果让每个批改试卷的老师 报告出他们批改试卷的最高成绩 然后主任把数据合并出来 很快就找出成绩最高的学生 这样效率就很高
利用mapreduce 做wordcount步骤
1.首先需要在给HDFS上传一个文件 其中还有单词的文件
在linux中启动hadoop start-dfs.sh
启动完成后 上传你在linux中创建的文件 hdfs dfs -put 目标文件 目标路径 ----上传
2.在eclipse中穿件Mapreduce project
3.我们需要创建三个类
mapper 拆分文件
reduce 合并数据
job 负责启动mapper 和reduce 这两个进程
Mymapper类
Myreduce类
Job 类
HDFS中的一些命令
hdfs dfs -mkdir 目录 -----创建目录
hdfs dfs -put 目标文件 目标路径 ----上传
hdsf dfs -get 目标文件 目标路径 -----下载
hdfs dfs -ls 目录 ------查看目录下的文件
hdfs dfs -cat 文件 --查看文件内容
hdfs dfs -rmr 文件 --删除文件
hdfs dfs -mv 改名称的文件路径 要改成的文件路径