书-spark设计与实现-第一部分:spark的基本流程

spark安装部署

spark架构

以standalone为例
task是spark最小的计算单位,不能再被拆分

角色

master和driver不一样,master是资源调度的主,driver是所在app任务的主。master只有一个,但driver会有多个。yarn模式下,RM就是master,而app的driver就是driver。
master是宾馆老板,有3个房间,现在有3个旅游团来入住,每个旅游团的人数(task)不同,所以不能简单的一个团一个房间,而是每个房间都分布每个团的人,这样既能合理利用cpu的核,避免资源浪费和不足。

为什么以线程方式运行task

有利于资源共享
可以使用线程池,避免启动和停止的初始化工作
缺点是线程间会有资源竞争,Executor JVM日志会显示多个并行task的日志,较为混乱。

spark例子

spark编程同单机编程有何区别?

spark程序并非一步步运行,而是懒执行,执行到action才会真正执行,会自动进行优化。
必须声明SparkContext,创建rdd才能操作分布式数据
函数式编程,只需要声明做什么

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值