什么是hadoop? (官网解释)
Apache™Hadoop®项目开发了用于可靠,可扩展的分布式计算的开源软件。
Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。
hadoop的模块
该项目包括以下模块:
- Hadoop Common:支持其他Hadoop模块的常用实用程序。
- Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
- Hadoop YARN:作业调度和集群资源管理的框架。
- Hadoop MapReduce:基于YARN的系统,用于并行处理大型数据集。
- Hadoop Ozone:Hadoop的对象存储。
- Hadoop Submarine: Hadoop的机器学习引擎。
hdfs包含:namenode + datanode + secondarynamenode
yarn包含: resourcemanager + nodemanager
安装hadoop-3.2.0
准备机器3台:centos7-1、centos7-2、centos7-3
1、安装jdk(略) 建议使用jdk1.8,其他版本有可能导致yarn起不来或者其他报错。
2、配置SSH
3、hadoop配置文件 (${hadoop_home}/etc/hadoop/)
[core-site.xml]
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://centos7-1/</value>
</property>
</configuration>
[hdfs-site.xml]
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
[yarn-site.xml]
<?xml version="1.0"?>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>centos7-1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
[slaves]
创建slaves文件并设置一下参数:
centos7-2
centos7-3
[hadoop-env.sh]
export JAVA_HOME= /usr/local/software/java/jdk1.8.0_212
4、拷贝配置到centos7-2、centos7-3
$>scp -r hadoop-3.2.0 hadoop@centos7-2:/home/hadoop/
$>scp -r hadoop-3.2.0 hadoop@centos7-3:/home/hadoop/
5、删除临时目录文件
$>cd /tmp
$>rm -rf hadoop-centos
$>ssh centos7-2 rm -rf /tmp/hadoop-centos
$>ssh centos7-3 rm -rf /tmp/hadoop-centos
6、删除hadoop日志
$>rm -rf ${hadoop_home}/logs/*
$>ssh centos7-2 rm -rf ${hadoop_home}/logs/*
$>ssh centos7-3 rm -rf ${hadoop_home}/logs/*
7、格式化
$>hadoop namenode -format
8、启动hadoop
$>start-all.sh
9、查看hadoop进程
$>jps
ResourceManager
NodeManager
NameNode
SecondaryNameNode
DataNode
Jps
10、通过webui查看hadoop的文件系统
http:// centos7-2:50070 (hadoop 2.X版本)
http:// centos7-1:9870 (hadoop 3.X版本)
查看yarn的webui: http:// centos7-1:8088
11、停止hadoop所有进程
$>stop-all.sh