(spark源码)randomSplit算子

最新推荐文章于 2022-06-30 09:12:56 发布

IAmListening

最新推荐文章于 2022-06-30 09:12:56 发布

阅读量1.4k

点赞数

分类专栏：源码文章标签： randomSplit spark 源码

本文链接：https://blog.csdn.net/IAmListening/article/details/93111292

版权

摘要

ods层是高度聚合的数据, 经常需要将一张大表拆分为多张小表.
hive的分表基本只能依靠when, 通过多次遍历完成过滤, 但由于spark可以指定分区, 于是考虑借助自定义分区后, 借助分区直接对表进行拆分
先说结论: 思路失败, 建议选择filter或者when完成分表
本文用于记录思路和简析randomSplit方法

思路

如果api中有相应的方法, 可以直接拆分单表为多表, 那么该方法返回的结果, 应该是一个rdd, dataset 或者dataframe的集合.
于是查找了相关的api, 发现还真有一个:

  def randomSplit(weights: Array[Double]): Array[Dataset[T]] = {
    randomSplit(weights, Utils.random.nextLong)
  }

该方法传入一个全正数的Double数组, 将Dataset按对应百分比进行随机切分.
我们的需求是按照分区进行切分, 说不定可以借鉴下该方法. 于是追了下源码

源码

// seed是随机数的种子
def randomSplit(weights: Array[Double], seed: Long): Array[Dataset[T]] = {
  // 对Double数组进行健壮性判断

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

IAmListening

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【Pytorch实用教程】pytorch中random_split用法的详细介绍

惊鸿若梦一书生

07-22

564

在 PyTorch 中，是一个非常有用的函数，用于将数据集随机分割成多个子集。这在机器学习和深度学习中非常常见，特别是当你需要将数据集分割成训练集和测试集或验证集时。这里是。

Spark五大大算子深度解析.md

05-02

深度解析Spark五大大算子深度解析个人原创内容详实业界最全`spark`内置了非常多有用的算子，通过对这些算子的组合就可以完成业务需要的功能。 `spark`的编程归根结底就是对`spark`算子的使用，因此非常有必要熟练...

参与评论您还未登录，请先登录后发表或查看评论

python spark RDD randomSplit 参数解释与使用详解

热门推荐

dangsh_的博客

05-04

1万+

randomSplit(weigh , *seed):参数：1. weights: 是一个数组根据weight（权重值）将一个RDD划分成多个RDD,权重越高划分得到的元素较多的几率就越大。数组的长度即为划分成RDD的数量,如rdd1 = rdd.randomSplit([0.25,0.25,0.25,0.25])作用是把原本的RDD尽可能的划分成4个相同大小的RDD 需要注意的是weigh

Spark - 第12章弹性分布式数据集

Syntactic Sugar

06-30

475

有两种低级API：一种用于处理分布式数据（RDD），零一种用于分发和处理分布式共享变量（广播变量和累加器） SparkContext是低级API函数库的入口，可以通过SparkSeesion来获取SparkContext，SparkSession是用于在Spark集群上执行计算的工作。无论是DataFrame还是Dataset，运行的所有的Spark代码都将编译成一个RDD。简单来说，RDD是一个只读不可变的且已分块的记录集合，并可以被并行处理。RDD与DataFrame不同

spark RDD基础装换操作--randomSplit操作

weixin_43744732的博客

01-30

1116

12.randomSplit操作将由数字1~10组成的RDD，用randomSplit操作拆分成3个RDD。 scala> val rddData1 = sc.parallelize(1 to 10,3) rddData1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[28] at parallelize at <co...

spark randomSplit glom函数操作详解

光与热的博客

09-07

1757

def randomSplit(weights: Array[Double], seed: Long = Utils.random.nextLong): Array[RDD[T]]该函数根据weights权重，将一个RDD切分成多个RDD。该权重参数为一个Double数组第二个参数为random的种子，基本可忽略。scala> var rdd = sc.makeRDD(1 to 10,10) rdd

saprk randomSplit方法

鸭梨的博客

02-13

1082

目的将rdd或者dataframe按照一定的比例进行拆分,拆分后的结果还是RDD或者dataframe类型. 拆分RDD def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession.builder().master("local").getOrCreate() val rdd: RDD[Int] = spark.sparkContext.parallelize(Array(1, 2, 3, 4

Spark1.4.1 RDD算子详解

03-02

结合代码详细描述RDD算子的执行流程，并配上执行流程图

Spark源码剖析

05-22

Spark 源码剖析涉及的内容广泛，包括核心组件、数据处理模型、内存管理、调度系统等多个方面。在这个主题下，我们将深入探讨以下几个关键知识点： 1. **Spark 架构**：Spark 的核心架构基于 Resilient Distributed ...

Spark常用的算子以及Scala函数总结.pdf

05-17

Spark 算子大致分为两类：Transformation 算子和 Action 算子。Transformation 算子用于对 RDD 进行变换操作，例如 map、filter 等，这些操作是延迟计算的，只有在触发 Action 算子时才真正执行。Action 算子会触发 ...

Spark-RDD

Alkaid的博客

06-30

349

RDD的特性 RDD的3种基本运算 RDD运算类型说明 “转换”运算会产生另外一个RDD的运算是“转换”运算，具有lazy特性，等到执行“动作”运算时才会执行 “动作”运算不产生另外一个RDD，而是产生数值、数组或其他动作的运算 “持久化” 对于会重复使用的RDD，可以将RDD存入内存中作为后续使用，提高执行性能 RDD的容错性 Lineage机制：会记录每个R...

【Pytorch】random_split()随机划分后不同数据集做不同数据增强

itt99543的博客

05-31

8577

torch.utils.data.dataset.random_split随机划分后对划分后数据处理在使用torch.utils.data.dataset.random_split后，生成同属于Dataset类型的Subset类，若想对划分后的训练集（train）和验证集（validation）再进行处理，只需重新赋值为实现类即可。 data_set = BCC.BCCSegmentation(cfg, split='train') # data_set.change_spl

Spark RDD算子—补充

大唐帝国—前营

12-24

724

一、基本RDD转换运算： 1、randomSplit运算可以将整个集合元素，以随机数的方式按照比例分为多个RDD。此运算会返回Array[org.apache.spark.rdd.RDD[Int]]。 val intRDD=sc.parallelize(List(3,1,2,5,5)) val sRDD=intRDD.randomSplit(Array(0.4,0.6)) sRDD

Spark算子：transformation之randomSplit、glom

csmnjk的专栏

09-20

390

1、randomSplit：def randomSplit(weights: Array[Double], seed: Long = Utils.random.nextLong): Array[RDD[T]] 该函数根据权重数组weights将一个RDD切分为多个RDD，seed是random种子（可忽略）。 scala> var rdd = sc.makeRDD(1 to 10,10...

RDD数据操作之randomsplit

YiDaMi的博客

07-30

4601

randomSplit def randomSplit(weights: Array[Double], seed: Long = Utils.random.nextLong): Array[RDD[T]] 该函数根据weights权重，将一个RDD切分成多个RDD。该权重参数为一个Double数组第二个参数为random的种子，基本可忽略。 scala> var rd

RDD基本转换操作(3)–randomSplit、glom

cloud-2014的专栏

09-14

906

【pytorch基础】torch.utils.data.random_split()划分数据集

weixin_47166887的博客

11-27

1万+

torch.utils.data.random_split()划分数据集小白看代码的时候发现这个函数，查了很多资料，在此做一下笔记 random_split()函数说明：这个函数的作用是划分数据集，我们不用自己划分数据集，pytorch已经帮我们封装好了，划分数据集就用torch.utils.data.random_split() 跳转到pytorch封装的random_split()函数里面，函数的具体定义是这样的： def random_split(dataset, lengths): r""

spark的java api_【Spark Java API】Transformation(2)—sample、randomSplit

weixin_35798118的博客

02-21

153

sample官方文档描述：Return a sampled subset of this RDD.返回抽样的样本的子集。函数原型：withReplacement can elements be sampled multiple times (replaced when sampled out)fraction expected size of the sample as a fraction of...

spark java 决策树_【Spark Mllib】决策树，随机森林——预测森林植被类型

weixin_39632982的博客

03-01

316

数据集处理importorg.apache.spark.mllib.linalg._importorg.apache.spark.mllib.regression._valrawData=sc.textFile("covtype.data")valdata=rawData.map{line=>valvalues=line.split(",").map(_.t...