大数据平台Hadoop环境部署

大数据的平台基本部署

Hadoop前置环境搭建

参考我的上一篇博客
大数据平台基本环境部署

集群规划

用三台linux虚拟机搭建一个最简单的分布式集群,用于学习

masterslave1slave2
172.16.1.100172.16.1.101172.16.1.102
NameNodeSecondaryNameNode
NodeManagerResourceManagerNodeManager

JDK安装

首先JDK上传到集群的/opt/software目录,然后解压到/opt/module

tar -zxvf /opt/software/jdk-8u131-linux-x64.tar.gz -C /opt/module/

JDK环境变量配置

# vi /etc/profile
在末尾输入以下内容
#JAVA_HOME
JAVA_HOME=/opt/modules/jdk1.8.0_121
export 
PATH=$PATH:$JAVA_HOME/bin

保存并退出,然后使用source命令使配置文件生效

# source /etc/profile

Hadoop的安装

安装Hadoop
1)进入到Hadoop安装包路径下:

# cd /opt/software/

2)解压安装文件到/opt/module下面

# tar -zxf hadoop-2.7.2.tar.gz -C /opt/module/

3)查看是否解压成功

# ls /opt/module/
对文件夹进行改名
# mv /opt/module/hadoop-2.6.0/ /opt/module/hadoop

4)将hadoop添加到环境变量

 vi /etc/profile
在profie文件末尾添加
##HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin			
保存后退出,让修改后的文件生效:
# source /etc/profile
配置Hadoop

进入hadoop的配置文件目录

# cd /opt/module/hadoop/etc/hadoop/
1)core-site.xml 的配置
# vi core-site.xml  

输入以下内容

<configuration>
<!-- 指定HDFS中NameNode的地址 -->
        <property>
                <name>fs.defaultFS</name>
        <value>hdfs://master:8020</value>
        </property>

        <!-- 指定hadoop运行时产生文件的存储目录 -->
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/module/hadoop/data/tmp</value>
        </property>

</configuration>

在这里插入图片描述

2)Hdfs的配置

更改 hadoop-env.sh

# vi hadoop-env.sh
将
export JAVA_HOME=${JAVA_HOME}
改为
export JAVA_HOME=/opt/module/jdk

更改hdfs-site.xml

<configuration>	
<!-- 指定HDFS中存储文件的副本数地址 -->
	<property>
		<name>dfs.replication</name>
		<value>3</value>
	</property>
<!-- 指定secondary的浏览器访问地址 -->
	<property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>slave2:50090</value>
    </property>
</configuration>

更改slaves文件,此文件指定hadoop各个节点的地址

master
slave1
slave2
3)yarn的配置

yarn-env.sh的配置

#vi yarn-env.sh
将
export JAVA_HOME=${JAVA_HOME}
改为
export JAVA_HOME=/opt/module/jdk

yarn-site.xml的配置

# vi yarn-site.xml
输入以下内容
<configuration>
<!-- Site specific YARN configuration properties -->
<!-- reducer获取数据的方式 -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

<!-- 指定YARN的ResourceManager的地址 -->
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>slave1</value>
	</property>
	</configuration>

注意!ResourceManager不要和namenode放在一起,因为ResourceManager很吃内存,容易把namenode卡掉.

4)mapreduce的配置

mapred-env.sh的配置

# vi mapred-env.sh
将
export JAVA_HOME=${JAVA_HOME}
改为
export JAVA_HOME=/opt/module/jdk

mapred-site.xml的配置

# vi mapred-site.xml
加入以下内容
<configuration>
<!-- 指定mr运行在yarn上 -->
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
	</configuration>

5)集群文件的分发

通过scp命令发送配置文件和集群文件
# scp -r /etc/profile root@slave1:/etc/
# scp -r /etc/profile root@slave2:/etc/
然后分别在slave1和slave2上执行source命令
# source /etc/profile
然后分发jdk和hadoop
# scp -r /opt/module root@slave1:/opt/module
# scp -r /opt/module root@slave2:/opt/module

6) 集群启动及测试

如果集群是第一次启动,需要格式化namenode
# bin/hdfs namenode –format

启动HDFS

[root@hmaster /]# start-dfs.sh

[root@master /]# jps
4166 NameNode
4482 Jps
4263 DataNode

[root@slave1 /]# jps
3218 DataNode
3288 Jps

[root@slave2 /]# jps
3221 DataNode
3283 SecondaryNameNode
3364 Jps

启动yarn

在slave2上执行
sbin/start-yarn.sh

注意:Namenode和ResourceManger如果不是同一台机器,不能在NameNode上启动 yarn,应该在ResouceManager所在的机器上启动yarn。
7)集群基本测试

向hdfs上传文件
bin/hadoop fs -put /opt/software/hadoop.tar.gz  /
查看文件是否存在
bin/hadoop fs -ls /
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
大数据平台自动化部署是一项相对复杂而且需要耗费一定时间的工作,但它能够大大提高大数据平台部署效率和可靠性。下面是一个基于Hadoop生态的自动化部署平台的搭建步骤: 1. 确定部署环境 首先需要确定部署环境的配置,包括硬件配置、操作系统、网络等。一般来说,大数据平台需要较高的计算、存储和网络性能,推荐使用64位操作系统,至少8GB内存,至少2个CPU核心。 2. 安装Java Hadoop大数据平台是基于Java开发的,因此需要安装Java运行环境。可以从Oracle官网下载JDK安装包,然后按照提示进行安装。 3. 安装Hadoop Hadoop大数据平台的核心组件之一,需要先安装Hadoop。可以从Apache官网下载Hadoop安装包,并按照官方文档进行安装和配置。 4. 安装Zookeeper Zookeeper是一个分布式协调服务,是Hadoop集群中必不可少的组件之一。可以从Apache官网下载Zookeeper安装包,然后按照官方文档进行安装和配置。 5. 安装Hive Hive是一个基于Hadoop的数据仓库工具,可以方便地进行数据分析和查询。可以从Apache官网下载Hive安装包,然后按照官方文档进行安装和配置。 6. 安装HBase HBase是一个分布式的NoSQL数据库,可以存储海量数据。可以从Apache官网下载HBase安装包,然后按照官方文档进行安装和配置。 7. 安装Spark Spark是一个快速、通用、可扩展的大数据处理引擎。可以从Apache官网下载Spark安装包,然后按照官方文档进行安装和配置。 8. 安装其他组件 根据实际需求,可以安装其他大数据组件,比如Kafka、Flume、Storm等。 9. 配置自动化部署工具 选择一个适合自己的自动化部署工具,比如Puppet、Ansible、Chef等,并按照其官方文档进行配置和使用。 10. 编写部署脚本 根据自己的需求和实际情况,编写自动化部署脚本,包括安装和配置大数据组件、启动和停止服务等。 11. 测试和调试 完成自动化部署平台的搭建后,需要进行测试和调试,确保每个组件都能正常运行,部署过程中没有任何问题。 以上就是基于Hadoop生态的自动化部署平台的搭建步骤。需要注意的是,每个组件的安装和配置都比较复杂,需要仔细阅读官方文档,并按照要求进行操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值