Spark分区相关

最新推荐文章于 2024-07-09 07:15:00 发布

Cheengvho

最新推荐文章于 2024-07-09 07:15:00 发布

阅读量187

点赞数

分类专栏： Spark Scala HDFS

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37890482/article/details/81985111

版权

HDFS 同时被 3 个专栏收录

11 篇文章 0 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

本文介绍了如何在Spark中启动spark-shell，并通过sc.textFile方法导入数据。详细讨论了查看RDD分区数的方法，包括默认导入和指定分区数的操作。示例中展示了从HDFS导入文件后查看及设置分区数的过程，并演示了当有多个数据文件时如何根据文件数量创建相应分区。

摘要由CSDN通过智能技术生成

在Linux启动spark-shell时，可以使用以下命令（两个线程）：

$ spark-shell --master local[2]

使用sc.textFile(“path”)导入文件，然后可以使用以下命令查看分区数：

scala> rdd.toDebugString()

此时我从HDFS中导入了一个文件：

然后查看该 RDD --- accounts的分区数：

使用sc.textFile("path",num)命令可以手动设置分区数：

查看分区数：

这次使用HDFS中accounts文件夹下面的所有文件进行创建RDD：

我们有7个数据文件，也就创建了7个分区。

打印每个partition的第一行（每一个partition都是一个迭代器）：

scala> accounts.foreachPartition(partition => println(partition.next))

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。