Spark SQL 的partitionBy() 动态分区
在Spark SQL中,`partitionBy()` 动态分区是指根据数据的实际值进行分区,而不是在数据写入时就确定分区的值。动态分区``scala在上述示例中,首先使用 `spark.read` 方法读取 CSV 文件,并将其加载为 DataFrame。然后,使用 `df.write` 方法将 DataFrame 保存为 Parquet 格式的文件。在保存的过程中,使用 `partitionBy` 方法指定了两个列名,即 "column1" 和 "column2",这样就会根据这两个列的值进行动态分区。
原创
2023-12-12 17:10:25 ·
1087 阅读 ·
0 评论