-
Spark解决什么问题
Hadoop主要解决海量数据的存储和海量数据的分析计算
Spark主要解决海量数据的分析计算
-
Spark为什么会有自己的资源调度器
Hadoop的Yarn框架比Spark框架诞生的晚,所以Spark自己也设计了一套资源调度框架 -
Spark运行模式
- Local:运行在一台机器上。测试用
- Standalone:是Spark自身的一个调度系统。对集群性能要求非常高时用。国内很少使用。
- Yarn:采用Hadoop的资源调度器。国内大量使用
- Mesos:国内很少使用
-
Spark的常用端口号
- 4040 spark-shell任务端口
- 7077 内部通讯端口。类比Hadoop的9000
- 8080 查看任务执行情况。类比hadoop的8088
- 18080 历史服务器。类比hadoop的19888
注意:由于Spark只负责计算,所以并没有Hadoop中存储数据的端口9870