概述
Hadoop
spark
实操
wordcount
local模式
standalone
RDD
map算子
mapPartitions
mapPartitionsWIthIndex
flatMap 和map类似,有一个或多个输出.可以将多个list铺平成一个.
glom
groupBy
sample
distinct
coalesce
repartition 打乱重组.
双Value
union
K-V算子
partitionBy
行动算子
转换算子计算完还是rdd,行动算子计算完,会启动作业,可能会换形式,非RDD.
rdd执行序列化
依赖关系
任务划分
rdd缓存/检查点
rdd分区器
rdd数据读取和保存
rdd连接mysql
减少数据库连接,提高效率,在每个分区里单独连接,在executer中,不涉及driver和executer的序列化.
rdd连接hbase
spark累加器
自定义累加器
广播变量
SparkSQL
dataset
用户自定义聚合函数
sparksql保存加载
SparkStreaming
dstram wordcount
自定义采集器
kafka数据源
dstream转换
滑窗
其他操作
spark内核
通信
任务调度
shuffle
内存管理
共享变量