1-2 Spark核心

一.RDD

graph LR
创建--->转换--->操作

1.RDD认知(Spark核心数据集)

RDD: 弹性分布式数据集

2.RDD分类

  • 单值: 无key值
  • 多个: 有key值

3.RDD操作

  • 转换(Transformations):
    • 数据加载到RDD
    • RDD转换到另一个RDD
    • 转换惰性机制: 所有的转换都是,记录了需要操作的步骤,但是没有马上执行。直到savrAsSequenceFile时才触发执行
  • 操作(Acyions):
    • RDD存储到硬盘
    • RDD触发转换执行

4.转换(Transformations)函数

常用函数描述返回
map(func)对RDD所有的元素使用func一个新的RDD
filter(func)对RDD所有的元素使用funcfunc为true的元素构成的RDD
flatMap(func)对RDD所有的元素使用func多个新的RDD
union(otherDatasks)返回新的dataset源dataset+定dataset
groupBy(numTasks)返回(K.seq[V])相同的键值对分组
reduccBykey(func.[num.Tasks])用给定的func作用在groupBy上进行操作操作后产生的K.seq[V]

5.操作(Acyions)函数

常用函数描述
reduce(func)func聚焦所有元素,接收两个参数返回一个值
collect返回数据集的所有元素
count()返回数据集中所有的个数
first()返回数据集中的第一个元素
take(n)返回前n个元素
saveAsTextFile(path)将数据集元素以texfile形式保存到本地文件系统,hdfs或者其他的分布式文件系统。
Spark调用toString将元素转换为文件中的文本
foreach(func)对数据集中的元素都执行func

6.RDD转换和操作流程

.

7.宽依赖(Wide Dependebcies)

  • 子RDD的一个分区都依赖某个父RDD

8.窄依赖(Narrow Dependencies)

  • 子RDD的一个分区只依赖某个父RDD

9.Stae:阶段

划分

9.1Task

分类

  • ShuffleMapTask
    • 输出Shuff
  • ResultTask
    • 输出最终结果

9.2流程图

9.3stge中的RDD

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

唐-import-某人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值