每天一点进步:Spark RDD三大特性

首先RDD是弹性分布式数据集(Resilience distributes Datasets )的简称,即一个被分区的数据集。RDD的来源只有两种:一种是从内存中的集合和外部存储系统,另外一种是通过转换操作来自其他RDD

第一,  RDD分区

1,查看分区

   valrddtxt=sc.textFile("hdfs:/tmp/testdata.txt")               

(需要验证:使用hdfs://192.168.2.242/tmp/testdata.txt没法访问)

   rddtxt.partitions.size

            显示结果: res8:Int = 2

2,设置分区

valrddtxt=sc.textFile("hdfs:/tmp/testdata.txt",4) //这里的4代表是最小分区数量

rddtxt.partitions.size

            显示结果: res8:Int = 5

 

第二,  RDD优先位置

RDD优先位置属性与spark中调度相关,返回的是此RDD的每个partition所存储的位置,

valrdd=sc.textFile("hdfs:/tmp/testdata.txt")

valhadoopRdd=rdd.dependencies(0).rdd

hadoopRdd.partitions.size

hadoopRdd.preferredLocations(hadoopRdd.partitions(0))

结果显示:res5: Seq[String] = ListBuffer(hadoop03, hadoop04)

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值