Spark-RDD笔记

最新推荐文章于 2024-07-20 07:00:40 发布

赶圩归来阿理理

最新推荐文章于 2024-07-20 07:00:40 发布

阅读量169

点赞数

分类专栏：大数据文章标签： spark big data hadoop

本文链接：https://blog.csdn.net/a274767172/article/details/124977328

版权

8 篇文章 1 订阅

订阅专栏

spark Steaming、spark ml等命令，最终都会转换成spark-core的组件命令来执行

spark RDD是 spark-core组件的数据结构、或叫数据模型、数据抽象

Resilient Distributed Dataset

基本概念
- 弹性分布式数据集
- 是spark的数据抽象
- 是一个不可变、可分区、里面元素可并行计算的合集
- 可以看做是对一堆数据的打包，就是一个RDD，也可以说，这个对象就的RDD
Dataset：RDD是一个数据集合，打包在一起
- 所有spark对数据的操作，都会转换成对RDD的操作
- 包括：spark sql、spark streaming、spark ml、spark mllib等
Distributed：分布式的
Resilient ：弹性的
- 数据可以保存在磁盘上、也可以保存在内存里
- 数据分布式是弹性的
  - 注：这个弹性不是说数据可动态扩展，而是说数据由容错性，有副本
  - RDD会在多个节点上存储，和HDFS一样
  - HDFS文件分为多个block存储在不同节点
  - RDD文件分为多个partition（分区），不同分区可能存储在不同节点
- spark读取HDFS场景下，会把hdfs的block读到内存，然后抽象为spark的partition来进行操作
- spark计算结束，一般会把数据持久化到hive、hbase、hdfs等
  - 存储举例：每个rdd的partion会先转换为hdfs的block，如果partition小于128M，那么会一一对应，如果大于128M，那么一个partition会拆成多个block再存