1、Transformations 转换算子
特点:懒执行,需要action算子粗发执行
- flatMap
- map
- mapToPair
- reduceByKey
- sortBy/sortByKey
- filter
- sample(true,0.1) //抽样 true 表示抽取是放回的 0.1随机抽取的概率 所以 最后的数字是不一定就是10%
- sample(true,0.1,100) 这样就会随机抽样 但是 每次抽出来都是一样的
2、Actions 行动算子 触发Transformation类算子执行,代码中有一个Action的算子,当前这个application中就有一个job
- foreach
- count 将数据拉回到 drive端
- collect 将数据拉回到drive端
- first 获取第一条数据 first = take(1)
- take(3) 获取3条数据 将数据拉取到drive端