Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoop

最新推荐文章于 2022-10-21 09:21:24 发布

猪逻辑公园

最新推荐文章于 2022-10-21 09:21:24 发布

阅读量469

点赞数

分类专栏：环境部署文章标签： ubuntu hadoop

本文链接：https://blog.csdn.net/qq_15111861/article/details/95053809

版权

环境部署专栏收录该内容

22 篇文章 0 订阅

订阅专栏

Spark集群安装和部署(一)-----Ubuntu16.0.4创建hadoop用户

Spark集群安装和部署(二)-----Ubuntu16.0.4安装jdk8

Spark集群安装和部署(三)-----ubuntu16.0.4安装hadoop

Spark集群安装和部署(四)-----ubuntu16.0.4安装Scala

Spark集群安装和部署(五)-----ubuntu16.0.4安装Spark

Spark集群安装和部署(六)-----pyspark更新Python版本、Notebook安装配置、安装pip

先下载hadoop-2.6.0.tar.gz，
wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.0.tar.gz

下面进行安装：

$ sudo tar -zxvf  hadoop-2.6.0.tar.gz -C /usr/local    #解压到/usr/local目录下
$ cd /usr/local
$ sudo mv  hadoop-2.6.0    hadoop                      #重命名为hadoop
$ sudo chown -R hadoop ./hadoop                        #修改文件权限

给hadoop配置环境变量，将下面代码添加到.bashrc文件:

export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

同样，执行source ~./bashrc使设置生效，并查看hadoop是否安装成功

这里写图片描述

伪分布式配置

Hadoop 可以在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 Java 进程来运行，节点既作为 NameNode 也作为 DataNode，同时，读取的是 HDFS 中的文件。Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中，伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式，每个配置以声明 property 的 name 和 value 的方式来实现。首先将jdk1.7的路径添（export JAVA_HOME=/usr/lib/jvm/java ）加到hadoop-env.sh文件

接下来修改core-site.xml文件：

<configuration>
        <property>
             <name>hadoop.tmp.dir</name>
             <value>file:/usr/local/hadoop/tmp</value>
             <description>Abase for other temporary directories.</description>
        </property>
        <property>
             <name>fs.defaultFS</name>
             <value>hdfs://localhost:9000</value>
        </property>
</configuration>

接下来修改配置文件 hdfs-site.xml

<configuration>
        <property>
             <name>dfs.replication</name>
             <value>1</value>
        </property>
        <property>
             <name>dfs.namenode.name.dir</name>
             <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
             <name>dfs.datanode.data.dir</name>
             <value>file:/usr/local/hadoop/tmp/dfs/data</value>
        </property>
</configuration>

Hadoop 的运行方式是由配置文件决定的（运行 Hadoop 时会读取配置文件），因此如果需要从伪分布式模式切换回非分布式模式，需要删除 core-site.xml 中的配置项。此外，伪分布式虽然只需要配置 fs.defaultFS 和 dfs.replication 就可以运行（可参考官方教程），不过若没有配置 hadoop.tmp.dir 参数，则默认使用的临时目录为 /tmp/hadoo-hadoop，而这个目录在重启时有可能被系统清理掉，导致必须重新执行 format 才行。所以我们进行了设置，同时也指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir，否则在接下来的步骤中可能会出错。

配置完成后，执行 NameNode 的格式化