安装伪分布式Hadoop集群

最新推荐文章于 2022-10-18 17:02:12 发布

lzhpo

最新推荐文章于 2022-10-18 17:02:12 发布

阅读量252

点赞数

分类专栏：大数据-Hadoop 文章标签：安装伪分布式Hadoop集群大数据

本文链接：https://blog.csdn.net/know9163/article/details/83243781

版权

大数据-Hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

压缩包：
eclipse-jee-photon-R-linux-gtk-x86_64.tar.gz
hadoop-2.9.1.tar.gz
jdk-10.0.1_linux-x64_bin.tar.gz

欢迎访问我的个人博客http://www.liuzhaopo.top

配置主机名和网络

配置主机名：

#hostnamectl set-hostname bigdata

配置网络：

#vi /etc/sysconfig/network-scripts/ifcfg-ens33
TYPE=Ethernet
PROXY_METHOD=none
BROWSER_ONLY=no
BOOTPROTO=static
DEFROUTE=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ens33
UUID=03063201-19aa-4cdf-8478-9c19a44a746e
DEVICE=ens33
ONBOOT=yes
IPADDR=192.168.0.100
NETMASK=255.255.255.0
GATEWAY=192.168.0.1

关闭防火墙并设置开机不自启（centos7+）

[root@bigdata ~]# firewall-cmd --state
running
[root@bigdata ~]# systemctl stop firewalld.service
[root@bigdata ~]# systemctl disable firewalld.service
Removed symlink /etc/systemd/system/multi-user.target.wants/firewalld.service.
Removed symlink /etc/systemd/system/dbus-org.fedoraproject.FirewallD1.service.
[root@bigdata ~]# firewall-cmd --state
not running

配置文件设置DNS（/etc/resolv.conf）

添加
nameservcer 8.8.8.8
保存退出

配置主机名映射

添加
192.168.0.100 bigdata
保存退出

创建文件夹

#mkdir /software
上传jdk、hadoop、eclipse（Java EE）到/software

解压

创建文件夹：

#mkdir /tools

#mkdir /tools/java

#mkdir /tools/hadoop

解压jdk：

#cd /software

#tar -zxvf jdk-10.0.1_linux-x64_bin.tar.gz -C /tools/java

解压hadoop：

#cd /software

#tar -zxvf hadoop-2.9.1.tar.gz -C /tools/hadoop

配置java、hadoop环境变量

配置java环境变量

#vi /etc/profile

在最后添加

#JAVA_HOME
export JAVA_HOME=/tools/java/jdk-10.0.1
export PATH= $P A T H :$ JAVA_HOME/bin
保存退出

生效环境变量:#source /etc/profile

配置hadoop环境变量

#vi /etc/profile
在export JAVA_HOME=/tools/java/jdk-10.0.1后面添加
export HADOOP_HOME=/tools/hadoop/hadoop-2.9.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存退出

生效环境变量:#source /etc/profile

修改hadoop配置文件

伪分布式需要修改5个配置文件

第一个：hadoop-env.sh

#cd /tools/hadoop/hadoop-2.9.1/etc/hadoop

#vi hadoop-env.sh

#第27行
export JAVA_HOME=/tools/java/jdk-10.0.1

第二个：core-site.xml

指定hadoop运行时产生文件的存储目录:#mkdir /tools/hadoop/hadoop-2.9.1/data

#cd /tools/hadoop/hadoop-2.9.1/etc/hadoop
#vi core-site.xml
<!-- 制定HDFS的老大（NameNode）的地址 -->
<property>
   <name>fs.defaultFS</name>
    <value>hdfs://bigdata:9000</value>
</property>

<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/tools/hadoop/hadoop-2.9.1/data</value>
</property>

<!-- 垃圾回收机制,按秒计算 -->
<property>
    <name>fs.trash.interval</name>
    <value>259200</value>
</property>

第三个：hdfs-site.xml

#cd /tools/hadoop/hadoop-2.9.1/etc/hadoop
#vi hdfs-site.xml
<!-- secondarynode放在第slave2上 -->
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>slave2:50090</value>
</property>
```		
### 第四个：mapred-site.xml (mv mapred-site.xml.template mapred-site.xml)
后缀名为.template的时候hadoop是不识别的
将mapred-site.xml.template改名为mapred-site.xml：#mv mapred-site.xml.template mapred-site.xml
```cpp
#cd /tools/hadoop/hadoop-2.9.1/etc/hadoop
#vi mapred-site.xml
<!-- 指定mr运行在yarn上 -->
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

<property>
    <name>mapreduce.jobhistory.address</name>
    <value>master:10020</value>
</property>

<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>master:19888</value>
</property>

第五个：yarn-site.xml

#cd /tools/hadoop/hadoop-2.9.1/etc/hadoop
#vi yarn-site.xml
<!-- 指定YARN的老大（ResourceManager）的地址 -->
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>slave1</value>
</property>

<!-- reducer获取数据的方式 -->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

<!-- #########nodemanager resouce######### -->
<property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>4096</value>
</property>

<property>
    <name>yarn.nodemanager.resource.cpu-vcores</name>
    <value>4</value>
</property>

<property>
    <name>yarn.log-aggregetion-enable</name>
    <value>true</value>
</property>

<property>
    <name>yarn.log-aggregetion.retain-seconds</name>
    <value>640800</value>
</property>

第六个：slaves

修改为
master
slave1
slave2

第七个：mapred-env.sh

export JAVA_HOME=/root/hj/java/jdk-10.0.1

第八个：yarn-env.sh

export JAVA_HOME=/root/hj/java/jdk-10.0.1

格式化namenode

#hdfs namenode -format/hadoop name -format

启动hadoop

启动HDFS：#start-dfs.sh

启动YARN：#start-yarn.sh

查看启动了哪些进程：#jps

[root@bigdata ~]# jps
56147 SecondaryNameNode
56583 NodeManager
56712 Jps
56300 ResourceManager
55853 NameNode
55982 DataNode

http://192.168.0.100:50070 （HDFS管理界面）
http://192.168.0.100:8088 （YARN管理界面）

配置SSH免密登录

在需要免密登录的全部节点上，修改hosts文件，全部都需要添加一样的内容。

注意：在前面第4已经配置了主机名映射，所以，这里主机名映射需需要配置了。

#vi /etc/hosts
添加
192.168.0.200 bigdata
保存退出

登录测试要输入密码
在hadoop1上登录hadoop2：#ssh bigdata
退出登录的节点：#exit

在hadoop1中执行：#ssh-keygen -trsa
然后，不断的按回车键。

#cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

#chmod 600 ~/.ssh/authorized_keys

将公钥复制到其他机器上
在bigdata免密登录bigdata自己：#scp ~/.ssh/authorized_keys bigdata:~/.ssh/

lzhpo

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
安装伪分布式Hadoop集群

压缩包：eclipse-jee-photon-R-linux-gtk-x86_64.tar.gzhadoop-2.9.1.tar.gzjdk-10.0.1_linux-x64_bin.tar.gz配置主机名和网络配置主机名：#hostnamectl set-hostname bigdata配置网络：#vi /etc/sysconfig/network-scripts/ifcfg...
复制链接

扫一扫

专栏目录