Spark调优、DataFrame API使用、大表Join、动态分区

VIP文章 Blue Wave

已于 2022-05-18 16:02:20 修改

阅读量1.4k

点赞数

分类专栏： spark Scala 文章标签： big data spark hive

于 2022-05-18 15:54:23 首次发布

本文链接：https://blog.csdn.net/You_are_my_Mr_Right/article/details/124841444

版权

Spark DataFrame [scala版] 实践小结

Spark DataFrame 使用注意事项

下面介绍的是使用Dataframe时 api 文档中没有写，但是需要注意的坑。

union()
union()时需要保证两边的DataFrame字段顺序一样，这里还有一点需要注意，Spark DataFrame的union()方法默认是不会进行去重的，但是如果是spark sql的话 union是默认会去重的
show()
很多时候我们在debug时会使用show()来查看数据，但是对于大数据集使用show()是会降低性能的，所以不建议在生产环境中使用show()
more api
DataFrame原生支持的API并不算丰富，DataFrameNaFunctions是对DataFrame的null value相关的api增强，可以使用如下流式调用：df.na.fill(value,Seq(column)) ，更多是使用UDF，但是这里需要注意对于非常复杂的逻辑的，建议直接使用sql，因为可能会导致下面提到的stackoverflow。