以前学知识从定义学起。
现在了解原理,能口头表达清楚让别人明白,自己理解意思,定义便不再重要,但因为我有些轻微的完美主义,所以说这次我先把定义加上。要注意可读性,以及文笔。慢慢练。
阅读书籍:《spark快速大数据分析》
spark定义:快速而通用的集群计算的平台
下图为spark软件栈:
显而易见,spark core最基础也最重要,其实现了spark最基本功能,包含任务调度,内存管理,错误恢复等模块。core中定义了spark进行计算的最基本编程抽象(数据类型):RDD(弹性分布式数据集:Resilient Distributed Dataset)的定义及创建和操作的API。
spark SQL:程序员可以用spark SQL 在spark平台上面操作结构化数据。
spark streaming:spark平台上用于对实时数据进行流式计算的组件。(