自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

m0_69097184的博客

大数据集群组件的使用(spark

关注

关注数：文章数：1 文章阅读量：1086 文章收藏量：1

作者: 小辉懂编程

始于热爱，忠于记录，终于研究

展开

Spark SQL 的partitionBy() 动态分区

在Spark SQL中，`partitionBy()` 动态分区是指根据数据的实际值进行分区，而不是在数据写入时就确定分区的值。动态分区``scala在上述示例中，首先使用 `spark.read` 方法读取 CSV 文件，并将其加载为 DataFrame。然后，使用 `df.write` 方法将 DataFrame 保存为 Parquet 格式的文件。在保存的过程中，使用 `partitionBy` 方法指定了两个列名，即 "column1" 和 "column2"，这样就会根据这两个列的值进行动态分区。

原创 2023-12-12 17:10:25 · 1087 阅读 · 0 评论