Spark---环境搭建---入门概念

目录

环境搭建


测试

Apache Spark是用于大规模数据处理的统一分析引擎

spark 仅仅替代了hadoop的mapraduce;

spark比hadoop快一百倍;

环境搭建

1:解压;

2:配置spark环境变量:

vim /etc/profile
export SPARK_HOME=/opt/module/spark
export PYSPARK_PYTHON=/opt/module/anacond3/envs/pyspark/bin/python3.8
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop


export PATH=$PATH:$SPARK_HOME/bin

source /etc/profile

 编辑:

vim ~/.bashrc
export JAVA_HOME=/opt/module/jdk
export PYSPARK_PYTHON=/opt/module/anacond3/envs/pyspark/bin

 测试:

spark-submit --version

3:设置spark,yarn是hadoop的一部分,必须启动hadoop时才会运行,spark中配置的和hadoop有关的;

cp spark-env.sh.template spark-env.sh

HADOOP_CONF_DIR=/opt/module/hadoop/etc/hadoop

 4:测试spark:

完成on yarn 相关配置,使用spark on yarn 的模式提交$SPARK_HOME/examples/jars/spark-examples_2.12.3.11.jar

运行的主类为org.apache.spark.examples.SparkPi

运行命令为:

spark-submit --master yarn --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar

yarn 需要配置:

yarn-site.xml:

<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>

hadoop必须启动!

如果提示safe mode问题需要执行:

hadoop dfsadmin -safemode leave

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值