Hadoop 中zoo_Ubuntu下搭建单机Hadoop和Spark集群环境

6d96228149ea2649d4855bb45e57fda6.gif

点击上方Linux公社,关注我们

正文 Hadoop在整个大数据技术体系中占有至关重要的地位,是大数据技术的基础和敲门砖,对Hadoop基础知识的掌握程度会在一定程度决定在大数据技术的道路上能走多远。 最近想要学习Spark,首先需要搭建Spark的环境,Spark的依赖环境比较多,需要Java JDK、Hadoop的支持。我们就分步骤依次介绍各个依赖的安装和配置。新安装了一个Linux Ubuntu 18.04系统,想在此系统上进行环境搭建,详细记录一下过程。 访问Spark的官网,阅读Spark的安装过程,发现Spark需要使用到hadoop,Java JDK等,当然官网也提供了Hadoop free的版本。本文还是从安装Java JDK开始,逐步完成Spark的单机安装。 f9799d5326f37bdbbd1d7e63c6bcbe5a.png

1、Java JDK8的安装

前往Oracle官网下载JDK8,选择适合自己操作系统的版本,此处选择Linux 64 https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html bf1ddf5d94532dec5ab82c32aa859631.png 下载之后的包放到某个目录下,此处放在/opt/java目录 linuxidc@linuxidc:~/www.linuxidc.com$ sudo cp /home/linuxidc/www.linuxidc.com/jdk-8u231-linux-x64.tar.gz /opt/java/
[sudo] linuxidc 的密码:
linuxidc@linuxidc:~/www.linuxidc.com$ cd /opt/java/
linuxidc@linuxidc:/opt/java$ ls
jdk-8u231-linux-x64.tar.gz 使用命令:tar -zxvf jdk-8u231-linux-x64.tar.gz 解压缩 linuxidc@linuxidc:/opt/java$ sudo tar -zxf jdk-8u231-linux-x64.tar.gz
linuxidc@linuxidc:/opt/java$ ls
jdk1.8.0_231  jdk-8u231-linux-x64.tar.gz 13de6aadec764d5b03b6b276e32b0746.png 9f6808335dae1d338c37a97b6e4fb098.png e7231c84b0003d20d0f806653c1d2172.png 修改配置文件/etc/profile,使用命令:sudo nano /etc/profile linuxidc@linuxidc:/opt/java$ sudo nano /etc/profile 在文件末尾增加以下内容(具体路径依据环境而定): export JAVA_HOME=/opt/java/jdk1.8.0_231
export JRE_HOME=/opt/java/jdk1.8.0_231/jre
export PATH=${JAVA_HOME}/bin:$PATH a6103a4c2cef1994b7445af53a663a58.png 保存退出,在终端界面使用命令:source /etc/profile 使配置文件生效。 linuxidc@linuxidc:/opt/java$ source /etc/profile 使用java -version验证安装是否成功,以下回显表明安装成功了。 linuxidc@linuxidc:/opt/java$ java -version
java version "1.8.0_231"
Java(TM) SE Runtime Environment (build 1.8.0_231-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.231-b11, mixed mode)
linuxidc@linuxidc:/opt/java$ b11540078e6c441adc3432019efc513c.png

2、安装Hadoop

前往官网https://hadoop.apache.org/releases.html下载hadoop,此处选择版本2.7.7 http://www.apache.org/dist/hadoop/core/hadoop-2.7.7/hadoop-2.7.7.tar.gz hadoop需要ssh免密登陆等功能,因此先安装ssh。 使用命令: linuxidc@linuxidc:~/www.linuxidc.com$ sudo apt-get install ssh 0fd0c07f6f7e4fda3b90bdd1b8000901.png linuxidc@linuxidc:~/www.linuxidc.com$ sudo apt-get install rsync 6fc0913036203a4064276117c5170049.png 将下载的包放到某个目录下,此处放在/opt/hadoop linuxidc@linuxidc:~/www.linuxidc.com$ sudo cp /home/linuxidc/www.linuxidc.com/hadoop-2.7.7.tar.gz /opt/hadoop/ e7231c84b0003d20d0f806653c1d2172.png 9f6808335dae1d338c37a97b6e4fb098.png 使用命令:tar -zxvf hadoop-2.7.7.tar.gz 进行解压缩 此处选择伪分布式的安装方式(Pseudo-Distributed) 修改解压后的目录下的子目录文件 etc/hadoop/hadoop-env.sh,将JAVA_HOME路径修改为本机JAVA_HOME的路径,如下图: 12202b516c131efff1ff6aa2ce658f15.png 配置Hadoop的环境变量 使用命令: linuxidc@linuxidc:/opt/hadoop/hadoop-2.7.7/etc/hadoop$ sudo nano /etc/profile 添加以下内容: export HADOOP_HOME=/opt/hadoop/hadoop-2.7.7 修改PATH变量,添加hadoop的bin目录进去 export PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:$PATH 833198a906822da2854af80d4d288422.png 修改解压后的目录下的子目录文件 etc/hadoop/core-site.xml linuxidc@linuxidc:/opt/hadoop/hadoop-2.7.7/etc/hadoop$ sudo nano core-site.xml fs.defaultFShdfs://localhost:9000 如下图: 39e8381dcf8fbbb54098419a51ad1213.png 修改解压后的目录下的子目录文件 etc/hadoop/hdfs-site.xml linuxidc@linuxidc:/opt/hadoop/hadoop-2.7.7/etc/hadoop$ sudo nano hdfs-site.xml dfs.replication1 如下图: da89f14408c9d86143a72a75b7845b7b.png 设置免密登陆 linuxidc@linuxidc:~/www.linuxidc.com$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
Generating public/private rsa key pair.
Your identification has been saved in /home/linuxidc/.ssh/id_rsa.
Your public key has been saved in /home/linuxidc/.ssh/id_rsa.pub.
The key fingerprint is:
SHA256:zY+ELQc3sPXwTBRfKlTwntek6TWVsuQziHtu3N/6L5w linuxidc@linuxidc
The key's randomart image is:
+---[RSA 2048]----+
|        . o.*+. .|
|        + B o o.|
|        o o =o+.o|
|        B..+oo=o|
|        S.*. ==.+|
|        +.o .oo.|
|        .o.o... |
|          oo .E .|
|          ..  o==|
+----[SHA256]-----+
linuxidc@linuxidc:~/www.linuxidc.com$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
linuxidc@linuxidc:~/www.linuxidc.com$ chmod 0600 ~/.ssh/authorized_keys 85bbec96f615ae7d17e14c215f625de8.png 使用命令:ssh localhost 验证是否成功,如果不需要输入密码即可登陆说明成功了。 linuxidc@linuxidc:~/www.linuxidc.com$ ssh localhost
Welcome to Ubuntu 18.04.3 LTS (GNU/Linux 5.4.0-999-generic x86_64)  * Documentation:  https://help.ubuntu.com
 * Management:    https://landscape.canonical.com
 * Support:        https://ubuntu.com/advantage  * Canonical Livepatch is available for installation.
  - Reduce system reboots and improve kernel security. Activate at:
    https://ubuntu.com/livepatch 188 个可升级软件包。
0 个安全更新。 Your Hardware Enablement Stack (HWE) is supported until April 2023.
Last login: Sat Nov 30 23:25:35 2019 from 127.0.0.1 fcc8c3e5badc0a72de6d9f11d503d835.png 接下来需要验证Hadoop的安装 a、格式化文件系统 linuxidc@linuxidc:/opt/hadoop/hadoop-2.7.7$ bin/hdfs namenode -format
19/11/30 23:29:06 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:  host = linuxidc/127.0.1.1
STARTUP_MSG:  args = [-format]
STARTUP_MSG:  version = 2.7.7
...... 74e569623f7d144e8afcb217c021cdcf.png b、启动Namenode和Datanode linuxidc@linuxidc:/opt/hadoop/hadoop-2.7.7$ sbin/start-dfs.sh
Starting namenodes on [localhost]
localhost: starting namenode, logging to /opt/hadoop/hadoop-2.7.7/logs/hadoop-linuxidc-namenode-linuxidc.out
localhost: starting datanode, logging to /opt/hadoop/hadoop-2.7.7/logs/hadoop-linuxidc-datanode-linuxidc.out
Starting secondary namenodes [0.0.0.0]
The authenticity of host '0.0.0.0 (0.0.0.0)' can't be established.
ECDSA key fingerprint is SHA256:OSXsQK3E9ReBQ8c5to2wvpcS6UGrP8tQki0IInUXcG0.
Are you sure you want to continue connecting (yes/no)? yes
0.0.0.0: Warning: Permanently added '0.0.0.0' (ECDSA) to the list of known hosts.
0.0.0.0: starting secondarynamenode, logging to /opt/hadoop/hadoop-2.7.7/logs/hadoop-linuxidc-secondarynamenode-linuxidc.out 248ced66379af38b98eea12ddc35b776.png c、浏览器访问 http://localhost:50070 0eee4d60d258086b6099d43613b2a34d.png

3、Scala安装:

下载地址:https://www.scala-lang.org/download/2.11.8.html aa8ec672a76eb6ad6d89d5169a02e9b5.png 下载好后解压到:/opt/scala linuxidc@linuxidc:~/下载$ sudo tar zxf scala-2.11.8.tgz -C /opt/scala
[sudo] linuxidc 的密码:
linuxidc@linuxidc:~/下载$ cd /opt/scala
linuxidc@linuxidc:/opt/scala$ ls
scala-2.11.8 48338912cb9427b62268862f9bf4bd4d.png 配置环境变量: linuxidc@linuxidc:/opt/scala$ sudo nano /etc/profile 添加: export SCALA_HOME=/opt/scala/scala-2.11.8   9ed6cd7d5de86115f921a242d2859744.png source /etc/profile

4、安装spark

前往spark官网下载spark https://spark.apache.org/downloads.html 此处选择版本如下: spark-2.4.4-bin-hadoop2.7 将spark放到某个目录下,此处放在/opt/spark 使用命令:tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz 解压缩即可 linuxidc@linuxidc:~/www.linuxidc.com$ sudo cp /home/linuxidc/www.linuxidc.com/spark-2.4.4-bin-hadoop2.7.tgz /opt/spark/
[sudo] linuxidc 的密码:
linuxidc@linuxidc:~/www.linuxidc.com$ cd /opt/spark/
linuxidc@linuxidc:/opt/spark$ ls
spark-2.4.4-bin-hadoop2.7.tgz 1244b4dc36008673830e99d87fcf88c4.png linuxidc@linuxidc:/opt/spark$ sudo tar -zxf spark-2.4.4-bin-hadoop2.7.tgz
[sudo] linuxidc 的密码:
linuxidc@linuxidc:/opt/spark$ ls
spark-2.4.4-bin-hadoop2.7  spark-2.4.4-bin-hadoop2.7.tgz 790f045b4969a58b94c5ad1247f4fec7.png 使用命令:./bin/run-example SparkPi 10 测试spark的安装 配置环境变量SPARK_HOME linuxidc@linuxidc:/opt/spark/spark-2.4.4-bin-hadoop2.7$ sudo nano /etc/profile export SPARK_HOME=/opt/spark/spark-2.4.4-bin-hadoop2.7
export PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${SPARK_HOME}/bin:$PATH 746c950336fed90479d902f7009539f5.png source /etc/profile 配置配置spark-env.sh 进入到spark/conf/ sudo cp /opt/spark/spark-2.4.4-bin-hadoop2.7/conf/spark-env.sh.template /opt/spark/spark-2.4.4-bin-hadoop2.7/conf/spark-env.sh linuxidc@linuxidc:/opt/spark/spark-2.4.4-bin-hadoop2.7/conf$ sudo nano spark-env.sh export JAVA_HOME=/opt/java/jdk1.8.0_231
export HADOOP_HOME=/opt/hadoop/hadoop-2.7.7
export HADOOP_CONF_DIR=/opt/hadoop/hadoop-2.7.7/etc/hadoop
export SPARK_HOME=/opt/spark/spark-2.4.4-bin-hadoop2.7
export SCALA_HOME=/opt/scala/scala-2.11.8
export SPARK_MASTER_IP=127.0.0.1
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8099
export SPARK_WORKER_CORES=3
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=5G
export SPARK_WORKER_WEBUI_PORT=8081
export SPARK_EXECUTOR_CORES=1
export SPARK_EXECUTOR_MEMORY=1G
export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native 60bc67dba14ef57645f68db13694572a.png Java,Hadoop等具体路径根据自己实际环境设置。 启动bin目录下的spark-shell ca0ac5d18d82f68b3e755738cf5df52e.png 可以看到已经进入到scala环境,此时就可以编写代码啦。 spark-shell的web界面http://127.0.0.1:4040 8eeaa7de5b4f5e88d55390bc07caf076.png 暂时先这样,如有什么疑问,请在Linux公社下面的评论栏里提出。 371dee3ee5c1eecfd9408de7b2038ef6.png 商务合作联系:root@linuxidc.net长按或扫描左图识别二维码关注Linux公社公众微信号 更多Hadoop相关信息见Hadoop 专题页面 https://www.linuxidc.com/topicnews.aspx?tid=13
Linux公社的RSS地址:https://www.linuxidc.com/rssFeed.aspx

本文永久更新链接地址:https://www.linuxidc.com/Linux/2019-12/161628.htm

144cab96ac291e6ce809e8da40d19c11.gif 8bc5eec5c9097be79d373b7cdf6219e4.png 支持就点下在看并 转发朋友圈吧 144cab96ac291e6ce809e8da40d19c11.gif
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值