1、Spark解决什么问题
回顾:Hadoop主要解决,海量数据的存储和海量数据的分析计算。
Spark主要解决海量数据的分析计算。
2、Spark为什么会有自己的资源调度器
Hadoop的Yarn框架比Spark框架诞生的晚,所以Spark自己也设计了一套资源调度框架。
3、Spark运行模式
1)Local:运行在一台机器上。 测试用。
2)Standalone:是Spark自身的一个调度系统。 对集群性能要求非常高时用。国内很少使用。
3)Yarn:采用Hadoop的资源调度器。 国内大量使用。
4)Mesos:国内很少使用。
4、Spark常用端口号
1)4040 spark-shell任务端口
2)7077 内部通讯端口。 类比Hadoop的8020/9000
3)8080 查看任务执行情况端口。 类比Hadoop的8088
4)18080 历史服务器。类比Hadoop的19888
注意:由于Spark只负责计算,所有并没有Hadoop中存储数据的端口50070
5、阐述下对Spark的并行度理解
Spark作业中,各个stage的task的数量,代表Spark作业在各个阶段stage的并行度。
订阅专栏 解锁全文

763

被折叠的 条评论
为什么被折叠?



