- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 HDFS原理
7、DataStreamer将数据块写入pipeline中的第一个数据节点,第一个数据节点将数据块发送给第二个数据节点,第二个数据节点将数据发送给第三个数据节点;10、当客户端结束写入数据,则调用close函数将所有的数据块写入pipeline中的数据节点,并等待ack queue返回成功,最后通知元数据节点写入完毕。失败的数据节点将被记录,以后不再连接。8、当此数据块读取完毕时,FSDataInputStream关闭和此数据节点的连接,然后连接此文件下一个数据块的最近的数据节点;
2024-03-12 16:22:27
1302
1
原创 MapReduce2.0原理
最后合并成了一个已分区且已排序的文件。步骤5:ResourceManager接收到作业后,将作业请求传递给调度器,调度器根据作业信息为ResourceManager分配一个container,然后ResourceManager在NodeManager的管理下,在container中启动一个ApplicationMaster进程。3、在合并的过程中会产生许多的中间文件(写入磁盘了),但MapReduce会让写入磁盘的数据尽可能地少,并且最后一次合并的结果并没有写入磁盘,而是直接输入到reduce函数。
2024-03-12 15:14:40
1554
1
原创 MapReduce1.0原理
首先个人认为MapReduce就像一个百变女郎,不同的视角你会看到不一样的它。1)从无太深技术背景普通使用者角度看,它是一个批量查询处理器;从程序员角度来看,它是一个类、一个方法/函数,开始时Mapper和Reducer都是继承了MapReduceBase基类,然后分别实现了Mapper与Reducer接口,后来又从接口变成了抽象类(当然如果您自己写的MapReduce使用的不是Java语言,那可能就有出入);
2024-03-12 11:01:07
1351
原创 HADOOP1.0与HADOOP2.0差异
Hadoop1.0即第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中HDFS由一个NameNode和多个DateNode组成,MapReduce由一个JobTracker和多个TaskTracker组成。
2024-03-08 18:56:45
672
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人