Spark编程及作业提交易犯错误

最新推荐文章于 2023-06-13 17:54:52 发布

桂小林

最新推荐文章于 2023-06-13 17:54:52 发布

阅读量519

点赞数 1

分类专栏： spark 文章标签：作业提交

本文链接：https://blog.csdn.net/quintind/article/details/80795419

版权

spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1、Spark作业需要从本地读入数据

本地输入的数据文件，需要和jar包放在Linux操作系统中，不能放在hdfs文件系统中。以下是一个示例

pathIn="../sparkJar/distinct_infected_ua "  # 本地要传入给Spark作业的数据位置
for i in {10..30}
do
if [ $i -lt 10 ] ; then
i=0$i
fi
pathIn="$pathIn/user/guixiaolin/iphone_userurl/201509$i "  # HDFS文件系统中数据位置
done
pathIn=${pathIn:0:${#pathIn}-1}
pathOut=""
for i in {10..30}
do
if [ $i -lt 10 ] ; then
i=0$i
fi
pathOut="$pathOut/user/guixiaolin/distinct_infected_user/201509$i " # 数据输出路径
done
pathOut=${pathOut:0:${#pathOut}-1}
export YARN_CONF_DIR=/opt/cloudera/parcels/CDH/lib/spark
spark-submit \
--master yarn-client \
--class cmc.DistinctInfectedUser \
--num-executors 30 \
--driver-memory 14g \
--executor-memory 14g \
--executor-cores 16 \
../sparkJar/DistinctInfectedUser.jar \
$pathIn \ #总的输入数据路径
$pathOut

2、RDD操作

Spark中，两个RDD进行join操作时，要求两个rdd都为（K，V）对类型。
当进行连续的多次 map时，必须要看清楚要进行map的数据类型。

譬如：
sc.textFile(file1).map(line=>line.split(“\)”)).map(x=>x(0).split(“\(“)).map(x=>x(1).split(“,”)).map(x=>(x(0),x(1)))
实现将文件中的一行（a，b）转变成K，V对。

3、Spark作业终止

kill作业
yarn application -kill $appID

4、Spark作业提交

spark提交作业时args参数是以空格隔开，若要输入多条路径，使用逗号隔开。

桂小林

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark编程及作业提交易犯错误

1、Spark作业需要从本地读入数据本地输入的数据文件，需要和jar包放在Linux操作系统中，不能放在hdfs文件系统中。以下是一个示例pathIn="../sparkJar/distinct_infected_ua " # 本地要传入给Spark作业的数据位置for i in {10..30}doif [ $i -lt 10 ] ; theni=0$ifipathIn...
复制链接

扫一扫

专栏目录