Spark-The-Definitive-Guide-Learning
《Spark: The Definitive Guide Big Data Processing Made Simple》学习记录
前言
本书出自OReilly的《Spark: The Definitive Guide Big Data Processing Made Simple》,由Matei Zaharia, Bill Chambers两位大佬所写,是2018年2月的第一版(我也不清楚有没有最新版,搜也没搜到第二版)
参考本书主页介绍,着眼于Spark 2.0的改进,探索Spark结构化API的基本操作和常用功能,以及用于构建端到端流应用程序的新型高级API Structured Streaming。学习监控,调优和调试Spark的基础知识,并探索机器学习技术和场景,以便使用Spark的可扩展机器学习库MLlib。
- 轻松了解大数据和Spark
- 通过工作示例了解DataFrames,SQL和Datasets-Spark的核心API
- 深入了解Spark的低级API,RDD以及SQL和DataFrame的执行
- 了解Spark如何在群集上运行
- 调试,监视和调整Spark集群和