大数据基础学习笔记-2.hadoop单机安装

最新推荐文章于 2023-05-12 18:44:33 发布

小马的学习笔记

最新推荐文章于 2023-05-12 18:44:33 发布

阅读量269

点赞数 1

分类专栏：大数据文章标签：大数据大数据

本文链接：https://blog.csdn.net/madongyu1259892936/article/details/86010238

版权

大数据专栏收录该内容

7 篇文章 0 订阅

订阅专栏

推荐正式安装前，先去看看《安装大数据前的准备工作》里的文章

1.服务器配置
47.107.182.164,120.78.181.181两台服务器都是1核2G内存(推荐使用正式环境学习，安装CDH)

2.服务器安装的服务
HA（高可用，有主备策略等）
（1）47.107.182.164
      1、HDFS服务（非HA）
       NameNode
       DataNode
      2、yarn服务（非HA）
       NodeManager
      3、zookeeper服务（2台集群，通过lead选举）
        QuorumPeerMain
      4、Hbase服务（主）
       HRegionServer
       HMaster

（2）120.78.181.181
   1、HDFS服务（非HA）
   DataNode
   SecondaryNameNode
   2、yarn服务（非HA）
   ResourceManager
     NodeManager
   3、zookeeper服务（2台集群，通过lead选举）
   QuorumPeerMain
   4、Hbase服务（备）
   HRegionServer
     HMaster

3.安装各个服务的版本
   HDFS，yarn，mapreduce：hadoop-2.7.4
   zookeeper：zookeeper-3.4.12
   Hbase：hbase-1.2.6
   hive：hive-2.1.1
   MariaDB：mariadb.x86_64 1:5.5.52-1.el7,mariadb-server.x86_64 1:5.5.52-1.el7（mysql的分支）
   java：1.8.0_191

4.安装服务
   （1）HDFS安装
        1、https://hadoop.apache.org/release/2.7.4.html去该网址下载hadoop-2.7.4版本
       2、通过工具（自行选择工具）上传到linux的opt目录下
       3、根据linux的版本不同，为了不报依赖错误，要先预先编译源码,在解压到opt目录下。网址: https://blog.csdn.net/chengyuqiang/article/details/77648643
             （1）tar -zxvf hadoop-2.7.3.tar.gz -C /opt
       4、hadoop的目录介绍
               bin ：Hadoop 最基本的管理脚本和使用脚本所在目录，这些脚本是sbin目录下管理脚本的基础实现，用户可以直接使用这些脚本管理和使用Hadoop 。
               etc ：Hadoop 配置文件所在的目录，包括core-site.xml 、hdfs-site.xml 、mapred-site.xml 等从Hadoop 1.0 继承而来的配置文件和yarn-site.xml 等Hadoop 2.0 新增的配置文件。
               include ：对外提供的编程库头文件（具体动态库和静态库在lib 目录中），这些头文件均是用C++ 定义的，通常用于C++ 程序访问HDFS 或者编写MapReduce 程序。
               lib ：该目录包含了Hadoop 对外提供的编程动态库和静态库，与include目录中的头文件结合使用。
               libexec ：各个服务对应的shell 配置文件所在目录，可用于配置日志输出目录、启动参数（比如JVM 参数）等基本信息。
               sbin ：Hadoop 管理脚本所在目录，主要包含HDFS 和YARN 中各类服务的启动/ 关闭脚本。
               share ：Hadoop 各个模块编译后的jar 包所在目录。
   （2）hdfs的单机安装
        1、通过vi hadoop-env.sh命令来编辑hadoop-env.sh脚本文件
        2、在第25行左右可以找到export JAVA_HOME=${JAVA_HOME}内容
        3、将改行修改为export JAVA_HOME=/opt/jdk1.8.0_112
       4、同样通过命令vi slaves编辑slaves文件
        5、将默认值localhost修改为node1，保存退出。
        6、同样通过命令比vim hdfs-site.xml编辑hdfs-site.xml文件
在<configuration>和</configuration>之间添加如下内容：

<property>
     <name>dfs.replication</name>
     <value>1</value>
</property>

7、同样通过命令比vim core-site.xml编辑core-site.xml文件
在<configuration>和</configuration>之间添加如下内容：

<property>
     <name>fs.defaultFS</name>
     <value>hdfs://node1:9000</value>
</property>

        8、默认情况下该目录下没有mapred-site.xml文件，而是存在一个模版文件mapred-site.xml.template，因此首先将模版文件复制一份为mapred-site.xml。然后在通过vi编辑该mapred-site.xml文件
       （1）cp mapred-site.xml.template mapred-site.xml
        （2）vi mapred-site.xml
       9、同样通过命令比vim mapred-site.xml编辑mapred-site.xml文件
在<configuration>和</configuration>之间添加如下内容：

<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

10、同样通过命令比vim yarn-site.xml编辑yarn-site.xml文件
在<configuration>和</configuration>之间添加如下内容：

<property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
</property>

   （3）hadoop单机运行
        1、namenode格式化
           bin/hadoop namenode -format
       2、在执行结果中可以找到has been successfully formatted，说明namenode格式化成功了！
       3、执行sbin/start-dfs.sh命令启动HDFS，在启动HDFS过程中，按照提示输入“yes”
        4、通过jps命令可以查看Java进程， jps -l完整查看
        5、通过命令sbin/start-yarn.sh启动YARN
       6、然后通过jps查看YARN的进程，可以看到多了ResourceManager和NodeManager两个进程。
       7、HDFS的Web界面默认端口号是50070。
           因为宿主机Windows的hosts文件没有配置虚拟机相关IP信息，所以需要通过IP地址来访问HDFS WEB界面，在浏览器中打开:http://47.120.182.164:50070
           单击页面上部的导航栏中的“Datanodes”
       8、YARN的Web界面默认端口号是8088。http://47.120.182.164:8088，单击左侧菜单栏的“Nodes”，可以查看NodeManager信息