dateset[row]=datefrarme也就是说dataframe是dataset的一种特殊情况,他两者与rdd最大的区别 有两点
1、dataframe和dataset 用的是堆外内存不采用java的Gc所以对内存的利用会更加高效
2、dataframe和dataset 带有执行计划,可以对任务进行优化,比如join().distinct() ,他会自动优化成先distinct后jion,而且3.0版本后,他不光会优化执行顺序,他还可以分析如果是小表,就可以直接广播,直接不需要shuffe了
dataset,dataframe,rdd区别
最新推荐文章于 2023-07-12 16:50:26 发布