spark2.1.0中使用spark dataset做一些操作
//data中c根据ol1 字段做分组
val data = sparkSession.csv(true,",","file:///Users/zhujiye/Downloads/work2.csv")
//groupbyData 类型为 RelationalGroupedDataset
val groupbyData = data.groupBy(data.col("col1"))
groupbyData.sum("col2").count
groupbyData.sum("col3").count
groupbyData.sum("col4").count
groupbyData.count
//....
groupbyData是否在第一次job触发(或者声明该对象后)之后自动做了缓存?有没有大神解答一下
spark dataset groupby 之后是否自动缓存
最新推荐文章于 2024-07-18 06:25:49 发布