Hadoop部署过程

m0_59676390

已于 2024-04-27 17:09:03 修改

阅读量413

点赞数 11

文章标签： hadoop 大数据分布式

于 2023-12-30 21:21:19 首次发布

本文链接：https://blog.csdn.net/m0_59676390/article/details/135309685

版权

一、安装和基础环境配置

依照此链接即可：https://www.cnblogs.com/ke-wu-a/p/14021591.html

克隆虚拟机前配置 hosts 文件：

hosts文件是本地域名解析，一个本地的DNS。它将IP地址和主机名相互解析。也是使用vi 编辑器进行编辑
>>vi /etc/hosts

127.0.0.1 localhost
#127.0.1.1 hadoop01
192.168.18.100 hadoop01
192.168.18.101 hadoop02
192.168.18.102 hadoop03
# The following lines are desirable for IPv6 capable hosts
::1     ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters

二、免密登录

1.三个虚拟机：

生成密钥文件（四次回车）

>>ssh-keygen -t rsa

2.将本机公钥文件复制到其它虚拟机上（接收方需先开机）

在hadoop01上执行，先输入yes，后输入对应主机的密码，多台虚拟机配置操作相同

		>>ssh-copy-id hadoop01
		>>ssh-copy-id hadoop02
		>>ssh-copy-id hadoop03

3.第“2”步骤在虚拟机hadoop02，hadoop03都需要执行，保证三台主机都能够免密登录

三、JDK、Hadoop 配置

参见链接：https://www.cnblogs.com/ke-wu-a/p/14021591.html
中的“3.上传并解压JDK、Hadoop压缩包”

四、Hadoop文件的配置

首先进入存放Hadoop配置文件的目录

>>cd /usr/local/hadoop-2.7.7/etc/hadoop/      # 进入此目录
>>ls    # 查看一下

1.配置核心组件core-site.xml

	<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://hadoop01:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/home/hadoop/hadoopdata</value>
        </property>
	</configuration>

2.配置hadoop-env.sh

	export JAVA_HOME=/usr/local/jdk1.8.0_271

3.配置hdfs-site.xml

	<configuration>
        <property>
                <name>dfs.replication</name>
                <value>3</value>
        </property>
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>hadoop02:50090</value>
        </property>
	</configuration>

4.配置yarn-site.xml

	<configuration>
	<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>0.0.0.0</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
	<property>
                <name>yarn.resourcemanager.scheduler.address</name>
                <value>hadoop01:8030</value>
        </property>

        <property>
                <name>yarn.resourcemanager.resource-tracker.address</name>
                <value>hadoop01:8031</value>
        </property>
	</configuration>

5.配置mapred-site.xml

使用cp命令复制mapred-site.xml.template文件为mapred-site.xml
>>cp mapred-site.xml.template mapred-site.xml

	<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
	</configuration>

6.配置yarn-env.sh

	export JAVA_HOME=/usr/local/jdk1.8.0_271

五、复制文件

1.使用scp命令将hadoop、jdk文件复制到 hadoop02 和 hadoop03 节点上。

在hadoop01节点执行下面命令

	>>sudo scp -r /usr/local/hadoop-2.7.7 hadoop@slave1:~/
	>>sudo scp -r /usr/local/hadoop-2.7.7 hadoop@slave2:~/
	>>sudo scp -r /usr/local/jdk1.8.0_251 hadoop@slave1:~/
	>>sudo scp -r /usr/local/jdk1.8.0_251 hadoop@slave2:~/

2.移动文件

在 hadoop02、hadoop03 节点执行下面命令

	>> sudo mv /home/hadoop/hadoop-2.7.7/ /usr/local/
	>> sudo mv /home/hadoop/jdk1.8.0_271/ /usr/local/
	>> source .bashrc    # 生效一下环境变量，每台节点都要执行。

六、启动集群

1.在 hadoop01 节点格式化namenode

	>> hdfs namenode -format       进行格式化

2.启动集群

启动：

	>> start-dfs.sh	
	>> start-yarn.sh	
	或者	 
	>>start-all.sh

关闭：

	>> stop-yarn.sh	
	>> stop-dfs.sh	
	或者	
	>> stop-all.sh

3. 使用jps命令查看进程

	hadoop01:	
		Jps
		NameNode
		DataNode
		NodeManager
		ResourceManager
	hadoop02:	
		Jps
		DataNode
		NodeManager
		SecondaryNameNode
	hadoop03:
		Jps
		DataNode
		NodeManager

4.关闭防火墙（所有虚拟机都要操作）

	>> systemctl stop firewalld    # 关闭防火墙
	>> systemctl disable firlewalld  # 关闭防火墙开机启动

5.打开window下的C:\Windows\System32\drivers\etc打开hosts文件，在文件末添加三行代码：

	192.168.18.100 hadoop01
	192.168.18.101 hadoop02
	192.168.18.102 hadoop03

文件保存在桌面，之后拖到上述目录下替换原文件即可

七、查看网页

1.通过UI界面查看Hadoop运行状态，在Windows系统下，访问http://hadoop01:50070，查看HDFS集群状态

2.在Windows系统下，访问http://hadoop01:8088，查看Yarn集群状态