Spark Pipe调用外部程序

最新推荐文章于 2024-04-11 17:29:20 发布

Agent_Tao

最新推荐文章于 2024-04-11 17:29:20 发布

阅读量3.7k

点赞数 2

分类专栏：大数据 spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hohojiang/article/details/74730606

版权

大数据同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

spark 中，有种特殊的Rdd，即pipedRdd，提供了调用外部程序如基于CUDA的C++程序，使其能够更快的进行计算。caffe on spark 和tensorflow on spark 也是基于此机制，那么，spark 和外部程序是怎么交互的呢？下面通过一个简单的例子验证。

步骤1：创建外部脚本

#!/bin/sh
echo "Running shell script"
while read LINE; do
   echo ${LINE}!
done

步骤2：spark rdd 调用

val data = sc.parallelize(List("hi","hello","how","are","you"))
val scriptPath = "/root/echo.sh"
val pipeRDD = dataRDD.pipe(scriptPath)
pipeRDD.collect()

查看运行结果，发现为：

Array[String] = Array(Running shell script, hi!, Running shell script, hello!, Running shell script, how!, Running shell script, are!, you!)

其中，Running shell script只出现了4次，rdd的count为9，可见有两次共享了一个外部进程。在此推断和RDD并行度有关。

步骤3：调整并行度

dataRDD.repartition(5)

结果为：

Array[String] = Array(Running shell script, are!, Running shell script, hi!, hello!, you!, Running shell script, Running shell script, Running shell script, how!)

Running shell script只出现了5次，rdd的count为10了。

结论

rdd pipe 每个分区，启动一次外部程序，输入通过stdin传入，结果通过stdout传出。

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Agent_Tao CSDN认证博客专家 CSDN认证企业博客

码龄17年

23: 原创

33万+: 周排名

78万+: 总排名

6万+: 访问

: 等级

710: 积分

7: 粉丝

21: 获赞

6: 评论

27: 收藏

私信

关注

热门文章

分类专栏

机器学习 3篇
AKKA
函数式 4篇
数据结构 4篇
数据库 3篇
web开发 3篇
大数据 5篇
JAVA 7篇
spark 1篇
jstorm 1篇
实时计算 1篇
hystrix 2篇
高可用 2篇
分布式 1篇
架构设计 1篇

最新评论

JAVA并行流的性能“陷阱”
Tisfy: 将唐风宋骨发扬得入木三分
Spark Pipe调用外部程序
pino~: repartition(5)这里是要发生shuffle的影响性能，你在parallelize的时候就应该指定分区数为5的，不指定那分区就是默认你所有的excutor的所有core之和，你应该是两个excutor每个excutor2个core；另外步骤2 中第一行和第三行rdd名字都不一样，程序能运行？
JAVA并行流的性能“陷阱”
帅气好男人_Jack: ForkJoinPool在jdk哪里，没找到啊？
JAVA并行流的性能“陷阱”
自助者天助之回复 lblinmi: CPU的核心数，超过了这个数，性能或许不增反降，线程切换带来的性能损耗
JAVA SortedSet的坑
在路上很酷: HashSet中两个元素相等的条件：通过equals()方法比较返回true，且两个元素的hashCode值相等

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。