基本概念
分布式计算与大数据处理概念
Spark 与 Hadoop 的比较
Spark 架构与核心组件(Driver、Executor、Cluster Manager)
Spark数据结构
RDD(弹性分布式数据集)的概念、操作和使用场景
DataFrame 和 DataSet 的概念、操作和使用场景
与 RDD、DataFrame、DataSet 相关的转换(Transformation)和行动(Action)操作
数据分区(Partitioning)与分片(Shuffling)
Spark SQL
Spark SQL 的概念、特性和优势
使用 SQL 查询和 DataFrame API 进行数据处理
用户自定义函数(UDF)和用户自定义聚合函数(UDAF)
数据源读取与写入:JSON、Parquet、Avro、CSV 等
数据库连接与集成:JDBC、Hive 等
Spark Streaming
实时处理概念与应用场景
DStream(离散化流)的概念、操作和使用场景
结构化流(Structured Streaming)的概念、操作和使用场景
窗口操作、滑动窗口、水印(Watermark)等
数据源接入:Kafka、Flume、Socket 等
Spark MLlib
机器学习库的概念、特性和使用场景
常见算法与模型:回归、分类、聚类、协同过滤等
特征工程:特征提取、特征转换、特征选择等
模型评估与调优
Spark GraphX
图计算库的概念、特性和使用场景
图的表示和操作:顶点(Vertex)、边(Edge)、属性图(Property Graph)等
常见的图算法:PageRank、连通分量、三角计数等
集群管理与调优
集群管理器:Standalone、YARN、Mesos 的比较与选择
Spark 应用的部署与提交
配置调优:内存管理、序列化、数据本地性等
监控与诊断:日志分析、Spark UI、性能指标等
生态系统与未来发展
与 Spark 相关的项目与工具:Hadoop、Hive、HBase、Kafka 等
Spark 的发展趋势与挑战
与 Spark 相关的开源社区和产业应用
spark实操
- spark集群部署
- spark交互式编程,例如:在交互界面中进行scala编程,熟悉常见的算子操作。