hadoop
CesarChoy
知识创造未来~~
展开
-
Spark的基本概念
前文: 一、Spark概念 1、Spark概念 2、对比MapReduce的计算:运算速度快上100倍 二、结构及资源调度 1、Spark集群的结构 2、资源调度流程 备注: 3、提交Job执行流程 4、业务处理总揽流程 二、Spark核心 RDD 1、弹性分布式数据集(RDDs),一个可以并行操作、有容错机制的数据集合...原创 2019-05-20 15:06:27 · 283 阅读 · 0 评论 -
HDFS分布式文件系统
前文: Hadoop作为一个分布式系统基础架构,解决了海量数据的存储和计算。 一、概念 1、HDFS及FSimage概念 2、HDFS架构 3、格式化启动 4、优缺点 5、应用场景 二、流程 1、读流程:输入流 2、写流程:输出流 注:元数据信息、写流程中流水线传输包数据 3、删流程 三、Hadoop版本...原创 2019-05-16 20:56:38 · 211 阅读 · 0 评论 -
Hadoop中Yarn的引入及MapReduce
前文: MapReduce作为分布式计算框架,用于计算海量数据。 一、Yarn的概念 目的:将执行MR任务中资源管理和作业调度分离。 1、Yarn 2、Yarn的架构节点 3、Yarn执行MR 二、不同版本MR执行流程 1、Hadoop1.0 2、Hadoop2.0 三、计算流程 1、 2、Shuffle过程 注1:Hadoop...原创 2019-05-18 09:49:02 · 330 阅读 · 0 评论