文章目录
-
- 第一章Spark概述
- 任务一 认识Spark
- 1.Spark发展历史
- 2.Spark的特点
- 3.Spark的生态圈
- 4.Spark的应用场景
- 任务二
- 任务三 了解Spark运行架构与原理
- 1.Spork架构
- 2.Spark作业运行流程
- 3.Spork核心数据集RDD
- 4.Spork核心原理
- 任务一 认识Spark
- 第一章Spark概述
-
- 第二章
任务一.认识Spark
Spark是用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,Spark官网上介绍,它具有运行速度快、易用性好、通用性强和随处运行等特点。
1.Spark发展历史。
2.Spark的特点。
1)快速 :逻辑回归算法(had一般需要多次迭代对存储数据进行迭代计算spark是hadoop MapReduce运行速度的100多倍.spark基于硬盘也快10多倍spark与Hadoop mapreduce的运行速度差异大的原因是spark的中间数据存放于内存中有更高的迭代效率而Hadoop mapreduce存放于hdfs中,涉及硬盘的读写故而运算效率低。
2)易用 :Spark 支持使用 Java、Python、R 和 Scala 的 API,还支持超过 80 种高级算法,使用户可以快速构建不同的应用而且 Spark 支持交互式的 Python 和 Scala 的 shell,可以非常方便地在这些