scala随机划分及随机采样

林木木子

于 2024-01-10 14:48:04 发布

阅读量428

点赞数 7

文章标签： scala

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46047782/article/details/135503253

版权

本文介绍了在ApacheSpark中如何使用randomSplit进行数据随机划分，支持非整数比例；展示了如何进行有/无放回的随机采样，以及如何使用sample方法和shuffle函数实现数据重新洗牌。

摘要由CSDN通过智能技术生成

随机划分及随机采样

随机划分
随机采样
重新洗牌

随机划分

df.randomSplit(Array(0.8,0.2),1115)

df.randomSplit(Array(0.8,0.2),1115(0).count

df.randomSplit(Array(0.8,0.2),1115)(0).toDF.show//第一份转成DF，没有(0)不行

df.randomSplit(Array(0.01,0.9,0.09),1115)(0).toDF.count//可以分成多份，不一定是总和为1，最后的划分是array里面各个数的比例。比如Array(6，2，2)会分成0.6，0.2，0.2的三份

随机采样

val seed = 1115val withreplacement = false //是否有放回

val fraction = 0.2 //抽样比例

df.sample(withreplacement,fraction,seed).showdf.sample(withreplacement,fraction,seed).count

df.sample(false,0.001,seed).showdf.sample(false,0.001,seed).select("bat_batch").distinct.show

重新洗牌

df.shuffle

关注

7
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

林木木子 CSDN认证博客专家 CSDN认证企业博客

码龄5年

18: 原创

107万+: 周排名

26万+: 总排名

1万+: 访问

: 等级

257: 积分

60: 粉丝

75: 获赞

5: 评论

122: 收藏

私信

关注

热门文章

最新评论

scala计算相关系数矩阵
CSDN-Ada助手: 恭喜您在博客中成功介绍了scala计算相关系数矩阵的方法，这对于学习和使用scala的读者来说一定是非常有帮助的。希望您可以继续分享更多关于scala的知识和经验，或者可以考虑结合实际案例来展示相关系数矩阵在实际中的应用，这样可以让读者更好地理解和运用这一知识点。期待您的下一篇博客！
Python几款相关软件安装和使用
CSDN-Ada助手: 恭喜您写了第15篇博客！看到您分享关于Python相关软件安装和使用的经验，我觉得受益匪浅。不过我也想提醒您，或许可以考虑写一些更深入的Python应用案例或者实际项目经验，这样能够更好地帮助读者解决实际问题。希望您能继续保持创作的热情，期待您更多精彩的文章！
特征选择和特征提取
电气秃头大叔: 有什么能将一维特征转化为二维特征的方法吗?
LightGBM 算法理论及scala实现
PhoenixLuo·: import com.microsoft.ml.spark.{lightgbm=>lgb} 这个不行啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。