spark安装部署
spark架构
以standalone为例
task是spark最小的计算单位,不能再被拆分
角色
master和driver不一样,master是资源调度的主,driver是所在app任务的主。master只有一个,但driver会有多个。yarn模式下,RM就是master,而app的driver就是driver。
master是宾馆老板,有3个房间,现在有3个旅游团来入住,每个旅游团的人数(task)不同,所以不能简单的一个团一个房间
,而是每个房间都分布每个团的人,这样既能合理利用cpu的核,避免资源浪费和不足。
为什么以线程方式运行task
有利于资源共享
可以使用线程池,避免启动和停止的初始化工作
缺点是线程间会有资源竞争,Executor JVM日志会显示多个并行task的日志,较为混乱。
spark例子
spark编程同单机编程有何区别?
spark程序并非一步步运行,而是懒执行,执行到action才会真正执行,会自动进行优化。
必须声明SparkContext,创建rdd才能操作分布式数据
函数式编程,只需要声明做什么