前言
在很多中间件中,例如kafka,有这么一种机制,可以将指定规则的数据发送到特定的分区,再比如rabbitmq,可以根据key的后缀进行匹配分发到不同的topic中;
在spark的rdd中,通常为了提升任务的并发处理能力,将数据放到不同分区中进行处理,设想这样么一个场景,我们需要将一批数据中的某些数据,按照特定的规则放到某些分区处理,这样的话方便后续的业务进一步处理,该怎么做呢?下面就是我们即将要谈到的Spark RDD 自定义分区器;
RDD 分区器
Spark
目前支持
Hash
分区和
Range
分区,和用户自定义分区。
Hash
分区为当前的默认
分区。分区器直接决定了
RDD