Spark基本概念笔记

最新推荐文章于 2024-01-05 09:36:48 发布

AutismPatiente

最新推荐文章于 2024-01-05 09:36:48 发布

阅读量131

点赞数

本文链接：https://blog.csdn.net/AutismPatiente/article/details/103646732

版权

Spark的认识

Spark的概念

Spark是一款基于内存的计算引擎,它的计算速度非常快.但是仅仅只涉及到数据的计算,并没有涉及到数据的存储
Spark的优点
- MapReduce 框架的局限性
  - Map结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据
  - 任务调度和启动的开销大
  - 无法充分利用内存
  - 不适合迭代计算(机器学习, 图计算等等),交互式处理(数据挖掘)
  - 不适合流式处理
  - MapReduce编程不够灵活,仅支持Map和Reduce两种操作
- Hadoop生态圈
  - 批处理:MapReduce,Hive,Pig
  - 流式计算:Storm
  - 交互式计算:lmpala,presto
    
    这个时候就需要一种可以同时处理批处理,流式计算,交互式计算
  - 内存计算引擎,提供cache机制来支持需要反复迭代计算或者多次数数据共享,减少数据读取的IO开销
  - DAG引擎,较少多次计算之间中间结果写到HDFS开销
  - 使用多线程模型来减少task启动开销,shuffle过程中避免不必要的sort操作以及减少磁盘IO
Spark的缺点
- 吃内存
- 不太稳定
Spark的特点
- 1、速度快（比mapreduce在内存中快100倍，在磁盘中快10倍）
  - spark中的job中间结果可以不落地，可以存放在内存中。
  - mapreduce中map和reduce任务都是以进程的方式运行着，而spark中的job是以线程方式运行在进程中。
- 2、易用性（可以通过java/scala/python/R开发spark应用程序）
- 3、通用性（可以使用spark sql/spark streaming/mlib/Graphx）
- 4、兼容性（spark程序可以运行在standalone/yarn/mesos）

RDD概述

RDD的概念

RDD:他代表着一个不可变,可分区,里面的元素可以并行计算的集合
- Dataset:一个数据集,简单的理解为集合,用于存放数据的
- Distributed:它的数据是分布式存储,并且可以做成分布式的计算
- Resilient:弹性的
  - 他表示的是数据可以保存在磁盘,也可以保存在内存中
  - 数据分布也是弹性的
  - 弹性:并不指他可以动态拓展,而是容错机制
    - RDD会在多个节点上存储,就和hdfs文件被切分多个block存储在各个节点上,而RDD是被切分为多个partition.不同的partition可能在不同的节点上
    - spark读取hdfs的场景下,spark把hdfs的block读到内存就会抽象为spark的partition
    - spark计算结束，一般会把数据做持久化到hive，hbase，hdfs等等。我们就拿hdfs举例，将RDD持久化到hdfs上，RDD的每个partition就会存成一个文件，如果文件小于128M，就可以理解为一个partition对应hdfs的一个block。反之，如果大于128M，就会被且分为多个block，这样，一个partition就会对应多个block。
- 不可变 RDD1 – RDD2
- 可分区 partition
- 并行计算
RDD的创建
- 创建sparkContext
  - SparkContext, Spark程序的入口. SparkContext代表了和Spark集群的链接, 在Spark集群中通过SparkContext来创建RDD
  - SparkConf 创建SparkContext的时候需要一个SparkConf，用来传递Spark应用的基本信息
```
conf = SparkConf().setAppName(appName).setMaster(master)
sc = SparkContext(conf=conf)
```

RDD常用操作

RDD支持两种类型的操作
- transformation
  - 从一个已经存在的数据集创建一个新的数据集
    - rdd a ---->transformation—>add
    - 比如,map就是一个transformation操作,把数据中每一个元素传给一个函数返回一个新的RDD,代表transformation操作的结果
- action
  - 获取对数据进行运算操作之后的结果
  - 比如, reduce就是一个action操作,使用某个函数聚合RDD所有元素的操作,并返回最终计算结果
所有的transformation操作都是惰性的（lazy）
- 不会立即计算结果
- 只记下应用于数据集的transformation操作
- 只有调用action一类的操作之后才会计算所有transformation
- 这种设计使Spark运行效率更高
- 例如map reduce 操作，map创建的数据集将用于reduce，map阶段的结果不会返回，仅会返回reduce结果。
persist 操作persist操作用于将数据缓存可以缓存在内存中也可以缓存到磁盘上，也可以复制到磁盘的其它节点上

AutismPatiente

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark基本概念笔记

Spark的认识Spark的概念Spark是一款基于内存的计算引擎,它的计算速度非常快.但是仅仅只涉及到数据的计算,并没有涉及到数据的存储Spark的优点MapReduce 框架的局限性Map结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据任务调度和启动的开销大无法充分利用内存不适合迭代计算(机器学习, 图计算等等),交互式处理(数据挖掘)不适合...
复制链接

扫一扫