Spark作为一款基于内存的分布式计算框架,具有简洁的接口,可以快速构建上层数据分析算法,同时具有很好的兼容性,能够结合其他开源数据分析系统构建数据分析应用或者产品。
为了适合读者阅读和掌握知识结构,本篇从Spark基本概念和机制介绍人手,结合笔者实践经验讲解如何在Spark之上构建机器学习算法,并最后结合不同的应用场景构建数据分析应用。
读者对象
本篇中一些实操和应用章节,比较适数据分析和开发人员,可以作为工作手边书;
机器学习和算法方面的章节,比较适合机器学习和算法工程师,可以分享经验,拓展解决问题的思路。
口Spark初学者
口Spark应用开发人员
口Spark机器学习爱好者
口开源软件爱好者
口其他对大数据技术感兴趣的人员
如何阅读本篇
本书分为11章内容。
由于细节内容实在太多啦,所以只把部分知识点截图出来粗略的介绍,每个小节点里面都有更细化的内容!
第1章从Spark概念出发,介绍Spark的来龙去脉,阐述Spark机制与如何进行Spark编程。
第2章详细介绍Spark的开发环境配置。
第3章详细介绍Spark生态系统重要组件Spark SQL、Spark Streaming、GiraphX、MLlib的实现机制,为后续使用奠定基础。