mapreduce

最新推荐文章于 2022-07-29 08:19:19 发布

桃小酷

最新推荐文章于 2022-07-29 08:19:19 发布

阅读量106

点赞数

本文链接：https://blog.csdn.net/Taoxiaoku/article/details/109020710

版权

1、hdfs读写文件流程
hdfs写流程：
1：客户端向namenode发出写文件请求
2：namonode校验请求检查权限通过检查后返回输出流对象
3：client端切割文件（128M）
4：client根据namenode返回的可写的datanode列表和data数据发给最近的datanode client向输出流对象中写数据
5：datenode写完一个块后会返回确认信息
6：写完数据关闭输出流
7: 发送完成信号给NameNode
强一致性:强一致性则需要所有DataNode写完后才向NameNode汇报
最终一致性:最终一致性则其中任意一个DataNode写完后就能单独向NameNode汇报
HDFS一般情况下都是强调强一致性
hdfs读流程：
1：客户端向namenode发出读文件请求
2：client访问namenode 查询元数据信息获取文件的数据块位置列表返回输入流对象
3：挑选datanode服务器，请求建立输入流
4：datanode向输入流中写数据，以packet为单位校验
5：关闭输入流
2、resourcemanager工作机制
1：接受client客户端提交作业
2：resourcemanager会返回一个jobid和数据保存目录
3：客户端根据返回数据保存目录路径将所有文件提交到hdfs目录
4：提交完数据资源后客户端对resouremanager提交任务运行
5：resourcemanager将任务存储任务队列
6：resourcemanager发送命令nodemanager处理从任务取出的任务
7：nodemanager往resourcemanageer审请我要创建一个app master
8：在nodemanager创建一个container，再启动app master
9：app master往resourcemanager审请运行资源
10：resourcemanager往空闲的nodemanager主机发送指令，要创建Container
11：app master往nodemanger发送运行指令，container运行任务
3、mapreduce工作机制
1：MapReduce运行的时候，会通过Mapper运行的任务读取HDFS中的数据文件然后调用自己的方法，处理数据，最后输出
2：Reducer任务会接收Mapper任务输出的数据，作为自己的输入数据，调用自己的方法，最后输出到HDFS的文件中。
Mapper执行过程：
每个Mapper任务是一个java进程，它会读取HDFS中的文件，解析成很多的键值对，经过我们覆盖的map方法处理后，转换为很多的键值对再输出
a:第一阶段是把输入文件按照一定的标准分片
b:第二阶段是对输入片中的记录按照一定的规则解析成键值对
（有个默认规则是把每一行文本内容解析成键值对。“键”是每一行的起始位置(单位是字节)，“值”是本行的文本内容）
c：第三阶段是调用Mapper类中的map方法。第二阶段中解析出来的每一个键值对，调用一次map方法
（如果有1000个键值对，就会调用1000次map方法。每一次调用map方法会输出零个或者多个键值对）
d:第四阶段是按照一定的规则对第三阶段输出的键值对进行分区。分区是基于键进行的
（默认是只有一个区。分区的数量就是Reducer任务运行的数量。默认只有一个Reducer任务）
e：第五阶段是对每个分区中的键值对进行排序。首先，按照键进行排序，对于键相同的键值对，按照值进行排序直接输出到本地的linux文件中
Reduce任务的执行过程：
a：Reducer任务会主动从Mapper任务复制其输出的键值对
b: 把复制到Reducer本地数据，全部进行合并，即把分散的数据合并成一个大的数据，再对合并后的数据排序。
c: 对排序后的键值对调用reduce方法，键相等的键值对调用一次reduce方法，每次调用会产生零个或者多个键值对，最后把这些输出的键值对写入到HDFS文件中
hadoop的核心思想是MapReduce，但shuffle又是MapReduce的核心。shuffle的主要工作是从Map结束到Reduce开始之间的过程
4:mapreduce实现wordcount：
WCDrive{
Job job=Job.getInstance(new Configuration(),[“job名”]);
设置驱动类 mapper类和reducer类
设置mapper和reducer的输出k，v
指定输入输出的文件
Boolean rst=job.waitCompletion(true);
}
WCMapper extends Mapper<LongWritable,Text,Text,IntWritable>{
map(LongWritable key,Text value,Context context){
String[] columns=value.to String().split("");
for(String c:columns)context.write(new Text©,new IntWritable(1));

}
WCMapper extends Reducer<Text,LongWritable,Text,IntWritable>{
reduce(Text key,Iteratorvalues,Context context)
int sum=0;
for (IntWritable value: values){
sum+=value.get();
}
context.write(key,new IntWritable(sum));

桃小酷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mapreduce

1、hdfs读写文件流程hdfs写流程：1：客户端向namenode发出写文件请求2：namonode校验请求检查权限通过检查后返回输出流对象3：client端切割文件（128M）4：client根据namenode返回的可写的datanode列表和data数据发给最近的datanode client向输出流对象中写数据5：datenode写完一个块后会返回确认信息6：写完数据关闭输出流7: 发送完成信号给NameNode强一致性:强一致性则需要所有DataNode写完后才向Name
复制链接

扫一扫