一:简介:
1)简介:
a:Spark 是一种基于内存的、快速的、通用的、可拓展的、大数据分析 计算引擎。
2)Spark VS Hadoop:
a:从时间节点看变化:
b:从功能来看区别:
c:Spark or Hadoop:
-1.Hadoop 的 MR 框架 和 Spark 框架,都是数据处理框架,那我们在使用时该如何使用呢?
a:Hadoop:
b:Spark:
c:实际使用选择:
-2.何所为 一次性数据计算:
a:框架在 处理数据的时候,会从 存储设备中读取数据,进行逻辑操作,
然后将处理的结果,重新存储到介质中。
b:Hadoop 把结果 存储到 磁盘中:
c:Spark 把结果 存储到 内存中:(处理速度快,堆内存资源要求高)(适合 单独部署)
二:Spark 核心模块 介绍:
1)图示:
2)模块介绍:
三:Spark 快速上手:
1)创建 Maven 项目:
a:增加 Scala 插件:
b:
c:
d:
e:
2):
a:
b:
c:
d:
e:
3):
a:
b:
c:
d:
e:
4):
a:
b:
c:
d:
e:
5):
a:
b:
c:
d:
e:
四::
1):
2):
3):
4):
5):
a:
b:
c:
d:
e: