大数据集群平台搭建--Hadoop分布式文件系统

Hadoop分布式文件系统



4.1 hadoop概述

在这里插入图片描述
HDFS:存储
MapReduce:计算
在这里插入图片描述
元数据
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


4.2 hadoop安装

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

运行结果并不会直接展现,需要在存入的新文件中查看
即mytestout(本文中【自己创建为准】)
用cd命令进入文件位置
ls 命令查看 为如下:
结果就在part-r-00000中
用cat命令即可查看
在这里插入图片描述


4.3 hadoop集群配置


在hadoop-2.7.3 位置下有 etc/hadoop 位置
cd etc/hadoop 进入

1.vi hadoop-env.sh
在这里插入图片描述
在这里插入图片描述

2.vi core-site.xml

<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/hadoop-2.7.3/hdfs/tmp</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>fs.checkpoint.period</name>
<value>60</value>
</property>
<property>
<name>fs.checkpoint.size</name>
<value>67108864</value>
</property>

在这里插入图片描述

注意:有时9001被占用,换其他节点试试
(否则jps无法看到Secondnode,namenode或datanode进程)
在这里插入图片描述

3.vi yarn-site.xml (8部分【第1,7,8部分必需要】

<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>     
<name>yarn.resourcemanager.address</name>
<value>master:18040</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:18030</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:18088</value>
</property>
<property>
<name>yarn.resourcemanager-tracker.address</name>
<value>master:18025</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:18141</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

vi slaves
vi master [在 hadoop-2.7.3/etc/hadoop]

slaves 内容:
 slave1  slave2  masterbak
master 内容:
master

4.vi hdfs-site.xml

<property>
<name>dfs.replication</name>  #Block副本数,默认3
<value>2</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/hadoop/hadoop-2.7.3/hdfs/name</value>
<final>true</final>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/hadoop/hadoop-2.7.3/hdfs/data</value>
<final>true</final>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

5.vi mapred-site.xml
在这里插入图片描述

4.4 HDFS系统

分发:
scp -r /usr/hadoop root@slave1:/usr
scp -r /usr/hadoop root@slave2:/usr
scp -r /usr/hadoop root@masterbak:/usr

hadoop namenode -format 格式化

(注意:仅可格式化一次,后续关闭也不可重复格式化,否则影响jps显示结果)
多次格式化会使master与slave1及slave2对应的clusterID号不同,需要进行修改统一(master:/usr/hadoop/hadoop-2.7.3/hdfs/name/current/VERSION中)

sbin/start-all.sh开始进程   

jps查看进程

sbin/stop-all.sh结束进程

缺失Secondary namenode,namenode,datanode 都表示未运行成功

(前提:保证已开启进程的情况下)
192.168.222.171:9001

http://192.168.222.171:50070
打开网站之前注意关闭防火墙(否则连不上)systemctl stop firewalld

命令:
注意前提:关闭防火墙systemctl stop firewalld


4.5 hadoop应用


在这里插入图片描述
查看进程192.168.222.171:18088
显示内容:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

亦可通过关闭防火墙解决

systemctl stop firewalld
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小伍_Five

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值