spark的dataframe分组聚合及dataframe随机分成几组

目录

1 dataframe随机分组


 

1 dataframe随机分组

1 实现功能

    dataframe按照权重随机分成n组,  权重和为1.

2 代码demo

// 1 获取SparkSession
val spark: SparkSession = SparkSession
  .builder()
  .appName(s"${this.getClass.getSimpleName}")
  .master("local[3]")
  .getOrCreate()
import spark.implicits._

// 2 构造数据源; 构造dataframe
val datas = 1.to(100)
val df = spark.sparkContext.makeRDD(datas).toDF("id")

// 3 定义随机分组的权重, 权重的和值为1; 随机分组
val weights = Array(0.3, 0.3, 0.4)
val df_arr = df.randomSplit(weights)

// 4 使用分组后的dataframe
df_arr(0).show()
df_arr(1).show()
df_arr(2).show()

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值