大数据时代之Hadoop集群搭建

小小的人儿居然已存在

已于 2023-07-31 15:53:19 修改

阅读量167

点赞数

分类专栏：大数据文章标签：大数据 hadoop

于 2019-11-28 15:07:28 首次发布

本文链接：https://blog.csdn.net/qq1049545450/article/details/103279983

版权

大数据专栏收录该内容

8 篇文章 0 订阅

订阅专栏

前面说搭建Hadoop+Hbase+Hive这些环境什么的太麻烦，说直接搭个CDH好了，结果看了几篇文章都说内存10G以下的就不要玩了，wtfk，我只是学习，又不是公司运维，我哪来这么大的服务器搞哦，算了还是一个个的搭吧。

搭建Hadoop环境

先前已经写过一篇Hadoop伪分布式搭建的文章了，这里就不再赘述了，贴链接：java连接Hbase操作数据库的全过程—搭建伪分布式hadoop环境

搭建分布式环境

将先前的机器设置为master
克隆master虚拟机，命名为slave
在hosts文件中配置master和slave的地址（master和slave虚拟机上都需要配置）
因为虚拟机是克隆来的，公钥私钥是一样的，所以master和slave之间可以相互免密登录，所以slave不需要生成ssh的公钥和私钥并拷贝给master。
在master和slave服务器上的~/hadoop/etc/hadoop/slaves文件中配置slave的地址：
在mster机器上启动dfs：
start-dfs.sh
分别在master和slave上jps将会看到如下图：

本以为可以了，兴高采烈的打开浏览器查看：
网上收索一通后找到文章：伪分布式+分布式安装Hadoop（两个节点）,好吧与之区别就在于伪分布式部署得时候很多采用的是默认配置，遂参考其配置，对以下文件进行配置：
core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://my-cdh-master:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name> #配置Hadoop临时文件保存路径
        <value>file:/tmp/hdfs/</value>
    </property>
</configuration>

hdfs-site.xml

    <configuration> 
        <property> 
            <name>dfs.replication</name> 
            <value>1</value> 
        </property> 
        <property>
                <name>dfs.namenode.secondary.http-address</name> #配置第二名称节点端口号
                <value>my-cdh-master:50090</value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name> #配置namenode数据保存路径
                <value>file:/tmp/dfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name> #配置datanode数据保存路径
                <value>file:/tmp/dfs/data</value>
        </property>
    </configuration>

mapred-site.xml

    <configuration> 
        <property> 
            <name>mapreduce.framework.name</name> 
            <value>yarn</value> 
        </property> 
        <property>
                <name>mapreduce.jobhistory.address</name> #jobhistory服务器端地址
                <value>my-cdh-master:10020</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name> #jobhistory的Web端地址
                <value>my-cdh-master:19888</value>
        </property>
    </configuration>

yarn-site.xml

    <property>
        <name>yarn.resourcemanage.hostname</name> #配置担当resourcemanage的节点
        <value>my-cdh-master</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

yarn-env.sh

mapred-env.sh

hadoop-env.sh
![在这里插入图片描述](https://img-blog.csdnimg.cn/20191128150408127.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxMTA0OTU0NTQ1MA==,size_16,color_FFFFFF,t_70