spark 环境搭建及几种模式测试

最新推荐文章于 2024-08-12 23:51:20 发布

正义飞

最新推荐文章于 2024-08-12 23:51:20 发布

阅读量1.2w

点赞数 2

分类专栏： hadoop 文章标签： hadoop spark yarn standalone

本文链接：https://blog.csdn.net/u011308691/article/details/51452746

版权

本文详细介绍了如何搭建Spark环境，包括安装JDK、Scala、编译Spark，以及配置Hadoop。接着，文章讨论了Spark的本地模式、standalone模式和on YARN模式的部署，并提供了命令测试。此外，还涵盖了Spark监控界面的启动和配置，以及如何标记任务完成。

摘要由CSDN通过智能技术生成

spark安装部署

标签（空格分隔）： spark

hadoop,spark,kafka交流群：224209501

1，spark环境的安装

创建四个目录

sudo mkdir /opt/modules
sudo mkdir /opt/softwares
sudo mkdir /opt/tools
sudo mkdir /opt/datas

sudo chmod 777 -R /opt/

1，安装jdk1.7

先卸载自带的jdk

rpm –qa | grep java

sudo rpm -e --nodeps (自带java包)

安装jdk1.7

export JAVA_HOME=/opt/modules/jdk1.7.0_67
export PATH=$PATH:$JAVA_HOME/bin

2，spark编译

安装mvn

export MAVEN_HOME=/usr/local/apache-maven-3.0.5
export PATH=$PATH:$MAVEN_HOME/bin

3，安装scala

export SCALA_HOME=/opt/modules/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin

4，修改mvn镜像源

编译之前先配置镜像及域名服务器，来提高下载速度，进而提高编译速度，用nodepad++打开/opt/compileHadoop/apache-maven-3.0.5/conf/setting.xml。（nodepad已经通过sftp链接到了机器）

  <mirror>
  <id>nexus-spring</id>
  <mirrorOf>cdh.repo</mirrorOf>
  <name>spring</name>
  <url>http://repo.spring.io/repo/</url>
  </mirror>

  <mirror>
  <id>nexus-spring2</id>
  <mirrorOf>cdh.releases.repo</mirrorOf>
  <name>spring2</name>
  <url>http://repo.spring.io/repo/</url>
  </mirror>

5，配置域名解析服务器

sudo vi /etc/resolv.conf
添加内容：
    nameserver 8.8.8.8
    nameserver 8.8.4.4

6，编译spark

为了提高编译速度，修改如下内容

VERSION=1.3.0
SPARK_HADOOP_VERSION=2.6.0-cdh5.4.0
SPARK_HIVE=1
#VERSION=$("$MVN" help:evaluate -Dexpression=project.version 2>/dev/null | grep -v "INFO" | tail -n 1)
#SPARK_HADOOP_VERSION=$("$MVN" help:evaluate -Dexpression=hadoop.version $@ 2>/dev/null\
#    | grep -v "INFO"\
#    | tail -n 1)
#SPARK_HIVE=$("$MVN" help:evaluate -Dexpression=project.activeProfiles -pl sql/hive $@ 2>/dev/null\
#    | grep -v "INFO"\
#    | fgrep --count "<id>hive</id>";\
#    # Reset exit status to 0, otherwise the script stops here if the last grep finds nothing\
#    # because we use "set -o pipefail"
#    echo -n)

执行编译指令：

./make-distribution.sh --tgz -Pyarn -Phadoop-2.4 -Dhadoop.version=2.6.0-cdh5.4.0 -Phive-0.13.1 -Phive-thriftserver
去掉下面编译会很快，即使编译失败也不会每次都清除
-DskipTests clean package

spark编译成功后.png-52.8kB

4 安装hadoop2.6

1，添加java主目录位置

hadoop-env.sh
mapred-env.sh
yarn-env.sh
添加如下：
export JAVA_HOME=/opt/modules/jdk1.7.0_67

2，core-site.xml配置

    <property>
        <name>hadoop.tmp.dir</name>

最低0.47元/天解锁文章

正义飞

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录