Spark十一 编程进阶之分区数据操作,数值RDD操作和与外部程序交互

分区操作

基于分区的操作避免为每个数据元素进行重复的配置工作,让代码只在RDD的每个分区运行一次



数值RDD操作

对数值RDD的统计操作,stats()会一次遍历计算所有统计操作的结果



与外部程序间的管道

1) 可以读写Unix标准流的任何语言,使用pipe()方法将RDD的元素从标准输入流以字符串形式读出,执行任何语言实现的操作后,把结果以字符串的形式写入标准输出流

2) SparkContext.addFile(path),可以构建一个文件列表,让每个工作节点在Spark作业中下载列表中的文件。当作业中的行动操作被触发,各个节点就下载这些文件,在各个节点的SparkFiles.getRootDirectory,或者使用SparkFiles.get(Filename)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值