spark的一些难以理解的概念和一些知识点的解读(高频考点!!)(Unit1)

本文针对Spark新手,解析RDD的概念。弹性体现在内存与磁盘的切换、多种转换与持久化策略;分布式涉及数据跨机器分散及分区。窄依赖与宽依赖影响调度阶段,宽依赖时Spark会物化中间结果以减少磁盘IO。RDD持久化策略包括内存中的未序列化和序列化对象,以及磁盘存储。Transformation和Action是Spark计算的核心,Transformation延迟计算,Action触发执行。
摘要由CSDN通过智能技术生成

这篇文章是对于还没有入门和刚刚入门的spark小白提的,大佬可以给出意见,本人接受!!!偷笑

关于RDD部分,首先你要知道什么什么RDD

RDD字面意思就是弹性分布式数据集。。。。。。。(百度一下都是这种字眼很让人反感)

个人感觉应该要分开理解

1。弹性

 

            1. RDD可以在内存和磁盘之间手动或自动切换(后续会仔细讲解)

            2. RDD可以通过转换成其他的RDD,即血统(就是转换操作一些算子)

 

            3. RDD可以存储任意类型的数据(不仅是文本数据还可以是音频视频等。。)

            4.RDD持久化方式非常多种多样,而且RDD本身就很聪明

这就叫弹性就是什么数据都能玩,而且是想怎么玩就怎么玩!!!

2。分布式:

        1.数据可以分散在好几个机器上

        2.,一个RDD好几个分区

3数据集

        1.初代RDD: 处于血统的顶层,存储的是任务所需的数据的分区信息,还有单个分区数据读取的方法,没有依赖的RDD, 因为它就是依赖的开始。

        2.子代RDD: 处于血统的下层, 存储的东西就是 初代RDD到底干了什么才会产生自己,还有就是初代RDD的引用

这就本人眼里的

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值