Spark的算子-详解

1、Transformations 转换算子

特点:懒执行,需要action算子粗发执行

  • flatMap
  • map
  • mapToPair
  • reduceByKey
  • sortBy/sortByKey
  • filter
  • sample(true,0.1) //抽样 true 表示抽取是放回的 0.1随机抽取的概率 所以 最后的数字是不一定就是10%
  • sample(true,0.1,100) 这样就会随机抽样 但是 每次抽出来都是一样的

2、Actions 行动算子 触发Transformation类算子执行,代码中有一个Action的算子,当前这个application中就有一个job

  • foreach
  • count 将数据拉回到 drive端
  • collect 将数据拉回到drive端
  • first 获取第一条数据 first = take(1)
  • take(3) 获取3条数据 将数据拉取到drive端

3、持久化算子

1. List item

cache() = persist() = persist(StorageLevel.MEMORY_ONLY)

2.persist() 可以手动指定RDD的持久化级别<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值