spark数据导入导出

【场景】

1、数据导入:结构化数据,hive中

2、代码提交:

(1) spark-shell的方式

(2) spark-submit的方式,代码已经编译好。

(3) zeppelin,spark编码的方式

3、数据输出:

(1) csv,json

(2) 本地化,hive


【实现】

1、spark-shell:

交互式编程,涉及到外包包依赖时,将需要的jar包都下载好,spark-shell执行的时候,指定依赖的jars。

一般在idea里面写好代码,粘到spark-shell分步执行调试。

./spark-shell --master yarn-client --jars /home/xx/xx/spark-csv_2.10-1.5.0.jar,/home/xx/xx/commons-csv-1.1.jar,/home/xx/xx/univocity-parsers-1.5.1.jar --num-executors 6 --executor-memory 4g


2、spark-submit:

(1)、直接编码,依赖包直接包含。

(2)、通过spark-submit提交任务,指定执行的jar包,主类,调节资源分配等参数。

(3)、spark job相关的配置,如果在spark-submit中和jar包代码中都设置了,会使用代码中的设置。


./spark-submit --class xxx --driver-memory 4g --num-execu

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值