Saprk总结

前言

为什么要学习Spark?
1. Spark比MapReduce快

  • spark可以将数据缓存在内存中进行计算 (cache)
  • spark是粗粒度资源调度,MR是细粒度资源调度
  • DAG有向无环图 (spark两个shuffle中间结果不需要落地,MR需要数据落地)

2. Spark简单

1. Spark core

  1. spark比MR快的三个原因
  2. RDD五大特性:
  • RDD由一组分区组成,默认一个block对应一个分区
  • 算子实际上是作用在每一个分区上的,每一个分区都会由一个task处理
  • RDD之间有一系列的依赖关系,宽依赖和窄依赖,宽窄依赖用于切分stage, stage是一组可以并行计算的task
  • 分区类的算子只能作用在KV格式的RDD上,reducebyKey、groupBykey、sortBykey
  • spark为task的执行提供了最佳计算位置,移动计算而不是移动数据
  1. 常用算子
  • map mapPartition mapValues
  • flatMap
  • filter
  • union
  • join
  • sample
  • reduceBykey 会在map端进行预聚合
  • groupBykey groupBy
  • sortBykey sortBy
  • foreach foreachPartition
  • take
  • collect
  • save
  1. 环境搭建
  • local(一般用于测试)
  • 独立集群
  • yarn
  • yarn-client
  1. Driver在本地(执行spark-submit的服务器)启动
  2. 如果在本地提交了大量的任务,会导致本地网卡流量剧增
  • yarn-cluster
  1. driver在随机一台nodemanger中启动
  2. 在本地看不到详细执行日志,一班用于上线使用
  3. 有一个高可用模式,如果driver挂了,会自动重启一个

在这里插入图片描述
5. 任务调度和资源调度
在这里插入图片描述
6. 缓存

  • 对同一个rdd多次使用的时候可以将rdd缓存起来
  • 缓存级别(常用两个)
  1. MEMORY_ONLY
  2. MEMORY_AND_DISK_SER
  • checkpoint: 将rdd的数据缓存到hdfs中, 会切断rdd的依赖关系
  1. 广播变量
  • 当在算子内使用了算子外的一个变量的时候可以将这个变量广播出去
  • 如果不使用广播变量每一个task中会有一个变量副本
  • 如果使用广播变量是每一个executor中一个变量副本
  1. 累加器
  • 在算子内不能修改算子外的一个普通变量
  • 累加器是在Executor端进行累加,在Driver端读取累加结果

2. Spark sql

在这里插入图片描述

3. Spark streaming

详情点击该篇博文:spark streaming概述及原理
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>