[Spark基础]--spark自定义分区及使用方法

最新推荐文章于 2024-01-29 21:12:36 发布

oo寻梦in记

最新推荐文章于 2024-01-29 21:12:36 发布

阅读量1.9w

点赞数 10

分类专栏： Apache Spark 文章标签： spark

本文链接：https://blog.csdn.net/high2011/article/details/68491115

版权

Apache Spark 专栏收录该内容

137 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Spark中分区的重要性和不同分区策略，包括HashPartitioner可能导致的数据不均匀问题和RangePartitioner的有序与均衡特性。还详细讲解了如何自定义分区器，通过继承Partitioner类并实现相关方法。最后，提供了自定义分区的使用示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数

注意：

(1)只有Key-Value类型的RDD才有分区函数，非Key-Value类型的RDD无分区函数，但是也是有分区的
(2)每个RDD的分区ID范围：0~numPartitions-1，决定这个值是属于那个分区的。

分区方式的优劣

HashPartitioner分区弊端：

可能导致每个分区中数据量的不均匀，极端情况下会导致某些分区拥有RDD的全部数据(HashCode为负数时，为了避免小于0，spark做了以下处理)。

/* Calculates 'x' modulo 'mod', takes to consideration sign of x,
 * i.e. if 'x' is negative, than 'x' % 'mod' is negative too
 * so function return (x % mod) + mod in that case.
 */
 def nonNegativeMod(x: Int, mod: Int

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

oo寻梦in记

关注关注

10
点赞
踩
19

收藏

觉得还不错? 一键收藏
10
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

【Spark实战系列】spark 如何实现自定义分区策略

JasonLee实时计算

03-22

2561

spark默认是提供了两种分区器,HashPartitioner和RangePartitioner,但是有的时候不能满足我们实际的需求,这个时候我们可以自定义一个分区器,也非常的简单.看下面一个demo,把key是偶数的放到一个分区,key是奇数的放到另一个分区. package spark import org.apache.spark.{Partitioner, SparkConf, S...

Spark RDD 自定义分区器

congge_study的博客

04-30

766

Spark 自定义分区器

10 条评论您还未登录，请先登录后发表或查看评论

Spark中的分区方法详解

雪泪寒的博客

02-26

711

Spark中的分区方法详解转自：https://blog.csdn.net/dmy1115143060/article/details/82620715 一、Spark数据分区方式简要在Spark中，RDD（Resilient Distributed Dataset）是其最基本的抽象数据集，其中每个...

spark自定义分区器实现

aitiejue5146的博客

06-23

317

在spark中，框架默认使用的事hashPartitioner分区器进行对rdd分区，但是实际生产中，往往使用spark自带的分区器会产生数据倾斜等原因，这个时候就需要我们自定义分区，按照我们指定的字段进行分区。具体的流程步骤如下： 1、创建一个自定义的分区类，并继承Partitioner，注意这个partitioner是spark的partitioner 2、重写partition...

spark中使用Scala来写自定义分区器

Huc673619的博客

10-30

545

自定义分区器 HashPartitioner源码解读： /*class HashPartitioner(partitions: Int) extends Partitioner { // 传进来的分区个数必须是大于等于0的，不然它会报错 require(partitions >= 0, s"Number of partitions ($partitions) cannot be negative.") // 重写分区器的抽象方法 // 记录它有多少个分区就是外面

spark-并行度 & 分区(分区的设定)

CZW的博客

06-07

418

package com.atguigu.bigdata.spark.core.rdd.builder import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Spark01_RDD_Memory_Par { def main(args: Array[String]): Unit = { // TODO 准备环境 // local[*] *表示当前系统最大可用核数

spark-JDBCRDD源码及自定义JDBCRDD的分区策略

04-08

Spark-JDBCRDD 源码及自定义 JDBCRDD 的分区策略 Spark-JDBCRDD 是 Apache Spark 中的一个重要组件，它提供了将关系型数据库中的数据加载到 Spark 中的能力。JDBCRDD 的核心思想是将数据库中的数据分区，并将每个...

spark-2.4.7-bin-hadoop2.6.tgz

03-17

Spark是Apache软件基金会下的一个开源大数据处理框架，其2.4.7版本是该框架的一个稳定版本，提供了高效、容错性好且易于使用的数据处理能力。与Hadoop2.6版本兼容，意味着Spark可以充分利用Hadoop的分布式存储系统...

Spark自定义分区器

QYHuiiQ

11-03

670

【代码】Spark自定义分区器。

SPARK中实现自定义分区

zhaoxiangchong的专栏

10-31

2726

大家好：在spark的开发中，有时需要将数据按照某个字段进行分开存储，这就需要用到spark的自定义分区的功能。先说测试数据，放在文件"C:\test\url1.log"中,数据如下所示： 20170721101954 http://sport.sina.cn/sport/race/nba.shtml 20170721101954 http://sport.sina.cn/sport...

spark自定义分区

辉哥大数据

09-19

1545

目录一、需求二、代码展示三、数据展示四、结果展示五、三种分区方式介绍 1、默认分区方式(实际上是HashPartitioner) 2、HashPartitioner分区 3、RangePartitioner分区——————————————————————————————–一、需求防止大量数据倾斜，自定义Partition的函数，map阶段使用元祖（i

Spark 基于自定义分区的方式分析点击流日志

小白的进化史

05-06

756

通过自定义分区的方式，实现对点击流日志统计，并取出每个模块中点击排行前三的链接。点击日志样本： 20160321101954 http://java.study.163.com/java/course/javaee.shtml 20160321101954 http://java.study.163.com/java/course/android.shtml 20160321101954

大数据 - Spark系列《一》- 分区 partition数目设置详解

最新发布

weixin_40968325的博客

01-29

2035

本文主要介绍了spark中partition的数目设置

Spark自定义分区测试（scala编写）

weixin_38023225的博客

11-02

441

package com.caimh.spark import org.apache.spark.rdd.RDD import org.apache.spark.{Partitioner, SparkConf, SparkContext} /** * Created by caimh on 2019/11/2. */ class CustomPartitioner(numPart...

spark 计算分层

weixin_43548518的博客

12-05

350

spark的计算分层最大application 最小task application —job — stadge —task application:一个运行程序为一个application job:一个application中有很多个action操作，一个action就有一个job stadge: 一个job，从后往前推，遇到宽依赖，划分stadge task: 在一个stadge中并行运算着...

Spark自定义分区器步骤以及Spark自定义分区器的应用

DaDiNiWangGe的博客

02-26

1829

Spark自定义分区器要实现自定义的分区器，你需要继承 org.apache.spark.Partitioner, 并且需要实现下面的方法: 1.numPartitions 该方法需要返回分区数, 必须要大于0. 2.getPartition(key) 返回指定键的分区编号(0到numPartitions-1)。 3.equals Java 判断相等性的标准方法。这个方法的实现非常重要，Spar...

Spark---并行度和分区

大呱的博客

04-01

1287

Spark---并行度和分区

图计算: 使用 Spark Graphx Pregel API 处理分层数据

雾岛与鲸的博客

11-25

1561

今天，分布式计算引擎是许多分析、批处理和流应用程序的支柱。Spark提供了许多开箱即用的高级功能（pivot、分析窗口函数等）来转换数据。有时需要处理分层数据或执行分层计算。许多数据库供应商提供诸如“递归 CTE（公用表达式）”或“join” SQL 子句之类的功能来查询/转换分层数据。CTE 也称为递归查询或父子查询。在这篇文章中，我们将看看如何使用 Spark 解决这个问题。分层数据概述 – 存在分层关系，其中一项数据是另一项的父项。分层数据可以使用图形属性对象模型表示，其中每一行都是一个顶点（节点）

源码详解Spark的repartition与partitionBy

zwlll19900607的专栏

12-30

1461

在Spark中可以使用repartition与partitionBy调整RDD的分区数，其实就是调整RDD的并行度。那么这两个算子调节RDD分区数有什么区别呢？ 1、使用对象不同 repartition：可以对普通RDD和pariRDD进行重分区 partitionBy：只能对pariRDD进行重分区 2、实现方式不同 repartition：为RDD的每个记录生成一个随机数，对这个随机...