Spark的安装

Spark的安装

  • Spark是一种基于内存的、分布式的、大数据处理框架,在 Hadoop 的强势之下,Spark凭借着快速、简洁易用、通用性以及支持多种运行模式四大特征,冲破固有思路成为很多企业标准的大数据分析框架。

Spark Standalone模式

  • 解压缩
    tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz

  • 修改slaver文件

     slaver1
     slaver2
    
  • 修改spark-env.sh文件

    export JAVA_HOME=/usr/jdk1.8.0_144
    export SPARK_MASTER_IP=master
    export SPARK_MASTER_PORT=7077
    
  • 分发到其他节点

    scp -r /usr/spark-2.4.0-bin-hadoop2.7/ root@slaver1:/usr/
    scp -r /usr/spark-2.4.0-bin-hadoop2.7/ root@slaver2:/usr/
    
  • 启动Spark并且使用jps查看主节点是否有Master进程,从节点是否有Worker进程

    start-all.sh
    

Spark On YARN模式

  • 在前面的基础上在spark-env.sh文件上添加下面代码
    export HADOOP_HOME=/usr/hadoop-2.7.1/
    export HADOOP_CONF_DIR=/usr/hadoop-2.7.1/etc/hadoop
    
  • 运行spark自带程序(启动hadoop集群,并且以Spark On YARN的cluster模式运行)
    bin/spark-submit \
    --class prg.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode cluster \
    /opt/spark-2.4.0-bin-hadoop-2.7/examples/jars/spark-examples_2.11-2.4.0.jar
    

Spark HA搭建

  • 删除Spark On YARN 模式中spark-env.sh文件中的SPARK_MASTER_IP属性配置,添加下面属性
      export SPARK_DAEMON_JAVA_OPTS=
    "-Dspark.deploy.recoveryMode=ZOOKEEPER
     -Dspark.deploy.zookeeper.url=master:2181,slaver1:2181,slaver2:2181
     -Dspark.deploy.zookeeper.dir=/spark"
    
  • 启动Spark(在那个节点启动Master,活动状态的Master就在那个节点)
    start-all.sh
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值