spark知识

一、为什么要搭建高可用模式

           为了防止主节点发生单点故障的问题。

二、yarn模式

           yarn模式有两种,yarn on client 和 yarn on cluster

           yarn on client  driver运行在当前节点上。一般是学习测试使用,容易造成网络流量激增

           yarn on cluster driver 运行在集群当中的某个节点上。一般是开发使用。不会造成网络流量              激增。

三、DAG有向无环图

           一个application当中可以有一到多张DAG有向无环图,具体取决于你这个application当中有             几个action执行算子。

四、RDD算子

           RDD算子分为两类:一类是transformation(转换算子),一类是action(行动算子)

五、RDD算子特点

           转换算子:惰性计算,只做连接不做运算,只有遇到action执行算子才会运算。

           执行算子:带动转换算子运算,并将结果输出或保存到指定地点。

六、如何区分转换算子和执行算子

           看返回值。返回值是RDD类型的就是转换算子。否则为执行算子;

七、stage划分

           首先构建DAG有向无环图,构建好后,采用回溯方法,从后往前推,遇到窄依赖包含到当               前stage中,遇到宽依赖断开,形成stage。

  

     

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值