1 SparkConf配置机制
1) SparkConf实例包含重载配置选项的字符串键值对,set()方法
2) 配置优先级:代码中set() > spark-submit设置 > 配置文件的值 > 系统的默认值
2 执行部件:Jobs, Tasks, and Stages
1) 任务内部流程
从数据存储或已有RDD或数据混洗获取输入数据
执行转化操作计算新的RDD,执行行动操作计算结果
把输出写入到数据混洗文件中,或写入外部存储,或返回给驱动器程序
2) Spark执行时的流程
> 用户代码定义RDD的DAG
> 行动操作把DAG转为物理执行计划
> 在集群中调度并运行任务
3 查找信息
1) Spark Web UI
2) 驱动器进程和执行器进程的日志
4 关键性能考量Key Performance Considerations
并行度
序列化格式
内存管理
硬件供给