spark--入门小练习

下载spark 2.X版本数据。
https://www.apache.org/dyn/closer.lua/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz
进行环境变量等相关配置。
在spark bin 目录下执行 :
bin/pyspark  --》 进入spark目录下。执行shell脚本
PYSPARK_DRIVER_PYTHON=ipython bin/pyspark -->  使用ipython


============
搭建java版本练习项目
1.利用maven简单搭建一个项目
2.在pom文件中添加一个依赖(spark-core)---注意spark版本和之前下载的版本保持一致。

3.代码编写  使用lambda表达式简化操作

4.使用spark-submit进行提交

在spark的bin目录下,进行提交。 注意 class中使用的是 “.”表示层级关系,jar包中使用"/"表示层级关系。

在项目使用的输入目录,注意是否存在。

spark-submit --class learn.spark.demo.App /Users/xxx/IdeaProjects/xxx/xxx/exercise/target/exercise-1.0-SNAPSHOT.jar

问题1:
input.txt 不存在  —》在提交目录下进行创建
问题2:

pom中的spark版本和bin中运行的spark版本不一致

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值