一、为什么要搭建高可用模式
为了防止主节点发生单点故障的问题。
二、yarn模式
yarn模式有两种,yarn on client 和 yarn on cluster
yarn on client driver运行在当前节点上。一般是学习测试使用,容易造成网络流量激增
yarn on cluster driver 运行在集群当中的某个节点上。一般是开发使用。不会造成网络流量 激增。
三、DAG有向无环图
一个application当中可以有一到多张DAG有向无环图,具体取决于你这个application当中有 几个action执行算子。
四、RDD算子
RDD算子分为两类:一类是transformation(转换算子),一类是action(行动算子)
五、RDD算子特点
转换算子:惰性计算,只做连接不做运算,只有遇到action执行算子才会运算。
执行算子:带动转换算子运算,并将结果输出或保存到指定地点。
六、如何区分转换算子和执行算子
看返回值。返回值是RDD类型的就是转换算子。否则为执行算子;
七、stage划分
首先构建DAG有向无环图,构建好后,采用回溯方法,从后往前推,遇到窄依赖包含到当 前stage中,遇到宽依赖断开,形成stage。