dataframe获取分区个数及每个分区的内容

最新推荐文章于 2022-09-17 17:22:15 发布

shy_01

最新推荐文章于 2022-09-17 17:22:15 发布

阅读量3.0k

点赞数

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40829577/article/details/105610214

版权

spark 专栏收录该内容

22 篇文章

订阅专栏

1 dataframe获取分区个数

// 构造测试数据源
val df = spark.sparkContext.makeRDD(1.to(100), 4).toDF("id")
// 获取分区个数
val partition_num=df.rdd.partitions.length
// 打印分区个数
println(partition_num)

2 dataframe获取每个分区的内容

// 构造测试数据
val df = spark.sparkContext.makeRDD(1.to(100), 4).toDF("id")
// 每个分区的元素封装到一个数组中, 返回一个新的rdd
val res = df.rdd.glom()
// rdd转换成便于观察的格式
val res02 = res.map(x => x.map(_.getInt(0)).mkString(","))
// 打印每个分区的内容
res02.foreach(println)

博客等级

码龄8年

90
原创

128
点赞

307
收藏

67
粉丝

关注

私信

热门文章

分类专栏

Kafka
hadoop 1篇
对象存储
调度系统 1篇
airflow 4篇
spark 22篇
flink 8篇
IntelliJ_IDEA 1篇
通用类 8篇
数据质量 1篇
scala 1篇
大数据开发规范 3篇
waterdrop 1篇
presto 1篇
clickhouse 1篇
aws
Hbase
笔记 1篇
others
common 1篇
directory 4篇
python 4篇
java 2篇
linux 5篇
hive 8篇

最新评论

Spark读取路径及通配符使用
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加除了各种控件外，文章正文的字数；(3)提升标题与正文的相关性。
spark和hive注册udf
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性；(3)使用更多的站内链接。
IntelliJ_IDEA使用笔记
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
本地文件加载到hive表
CSDN-Ada助手: Hive 是否支持多表关联查询？
spark-sql读写数据源
CSDN-Ada助手: 大数据里的5V分别表示什么：Volume, Velocity, Variety, Veracity, Value?

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。