Spark的重划分（分区）与合并

最新推荐文章于 2023-02-14 17:37:46 发布

人畜无害的萌新史莱姆

最新推荐文章于 2023-02-14 17:37:46 发布

阅读量904

点赞数

分类专栏：大数据开发文章标签： spark

本文链接：https://blog.csdn.net/qq_38762390/article/details/116939106

版权

Spark中的重划分和合并操作对于优化数据处理至关重要。重分区根据特定列进行，可能导致全集群数据洗牌，常用于调整分区数。而合并分区（coalesce）则避免全洗牌，适合减小分区数。这两种技术影响数据物理布局，优化任务执行效率。

摘要由CSDN通过智能技术生成

Spark的分区与合并操作通常是一个重要的优化方法，它根据一些经常过滤的列对数据进行分区，控制跨集群数据的物理布局，包括分区方案和分区数。
不管是否有必要，重新分区都会导致数据的全面洗牌。
如果将来的分区数大于当前的分区数，或者当你想要基于某一组特定列来进行分区时，通常只能重新分区。
合并分区：合并操作（coalesce）不会导致数据的全面洗牌，但会尝试合并分区。
示例代码如下：

/**
   * 分区与合并
   *  另一个重要的优化是根据一些经常过滤的列对数据进行分区，控制跨集群数据的物理布局，包括分区方案和分区数
   *  不管是否有必要，重新分区都会导致数据的全面洗牌。
   *  如果将来的分区数大于当前的分区数，或者当你想要基于某一组特定列来进行分区时，通常只能重新分区
   *
   *  合并分区：合并操作（coalesce）不会导致数据的全面洗牌，但会尝试合并分区。
   */
  def partition1():Unit = {
   
    val rdd

最低0.47元/天解锁文章

人畜无害的萌新史莱姆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark的重划分（分区）与合并

Spark的分区与合并操作通常是一个重要的优化方法，它根据一些经常过滤的列对数据进行分区，控制跨集群数据的物理布局，包括分区方案和分区数。不管是否有必要，重新分区都会导致数据的全面洗牌。如果将来的分区数大于当前的分区数，或者当你想要基于某一组特定列来进行分区时，通常只能重新分区。合并分区：合并操作（coalesce）不会导致数据的全面洗牌，但会尝试合并分区。示例代码如下：/** * 分区与合并 * 另一个重要的优化是根据一些经常过滤的列对数据进行分区，控制跨集群数据的物理布局，包括分
复制链接

扫一扫

专栏目录