大数据
天蓝得像笑过
愿乘风破万里代码
展开
-
Mapreduce工作流程及部分类探究
Mapreduce工作流程按照时间顺序包括:输入分片(input split)、map阶段、combiner阶段、shuffle阶段和reduce阶段。1.输入分片(input split):在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务输入分片(转载 2017-07-23 21:59:21 · 594 阅读 · 0 评论 -
HDFS 主从结构以及读写策略探究
一、HDFS的一些基本概念: 数据块(block):大文件会被分割成多个block进行存储,block大小默认为64MB。每一个block会在多个datanode上存储多份副本,默认是3份。namenode:namenode负责管理文件目录、文件和block的对应关系以及block和datanode的对应关系。datanode:datanode就负责存储了,当然大部分容错机制都转载 2017-07-19 21:34:46 · 3253 阅读 · 0 评论