Hadoop分布式文件系统
4.1 hadoop概述
HDFS:存储
MapReduce:计算
元数据
4.2 hadoop安装
运行结果并不会直接展现,需要在存入的新文件中查看
即mytestout(本文中【自己创建为准】)
用cd命令进入文件位置
ls 命令查看 为如下:
结果就在part-r-00000中
用cat命令即可查看
4.3 hadoop集群配置
在hadoop-2.7.3 位置下有 etc/hadoop 位置
cd etc/hadoop 进入
1.vi hadoop-env.sh
2.vi core-site.xml
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/hadoop-2.7.3/hdfs/tmp</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>fs.checkpoint.period</name>
<value>60</value>
</property>
<property>
<name>fs.checkpoint.size</name>
<value>67108864</value>
</property>
注意:有时9001被占用,换其他节点试试
(否则jps无法看到Secondnode,namenode或datanode进程)
3.vi yarn-site.xml (8部分【第1,7,8部分必需要】
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:18040</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:18030</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:18088</value>
</property>
<property>
<name>yarn.resourcemanager-tracker.address</name>
<value>master:18025</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:18141</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
vi slaves
vi master [在 hadoop-2.7.3/etc/hadoop]
slaves 内容:
slave1 slave2 masterbak
master 内容:
master
4.vi hdfs-site.xml
<property>
<name>dfs.replication</name> #Block副本数,默认3
<value>2</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/hadoop/hadoop-2.7.3/hdfs/name</value>
<final>true</final>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/hadoop/hadoop-2.7.3/hdfs/data</value>
<final>true</final>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
5.vi mapred-site.xml
4.4 HDFS系统
分发:
scp -r /usr/hadoop root@slave1:/usr
scp -r /usr/hadoop root@slave2:/usr
scp -r /usr/hadoop root@masterbak:/usr
hadoop namenode -format 格式化
(注意:仅可格式化一次,后续关闭也不可重复格式化,否则影响jps显示结果)
多次格式化会使master与slave1及slave2对应的clusterID号不同,需要进行修改统一(master:/usr/hadoop/hadoop-2.7.3/hdfs/name/current/VERSION中)
sbin/start-all.sh开始进程
jps查看进程
sbin/stop-all.sh结束进程
缺失Secondary namenode,namenode,datanode 都表示未运行成功
(前提:保证已开启进程的情况下)
192.168.222.171:9001
http://192.168.222.171:50070
打开网站之前注意关闭防火墙(否则连不上)systemctl stop firewalld
命令:
注意前提:关闭防火墙systemctl stop firewalld
4.5 hadoop应用
查看进程192.168.222.171:18088
显示内容:
亦可通过关闭防火墙解决
systemctl stop firewalld