一,介绍
它主要解决以下三个问题
1.海量的数据存储(HDFS)
2.海量的数据分析(MapReduce)
3.资源管理调度(YARN)
1.Hadoop的配置
因为hadoop是基于java编写的,因此需要配置java的环境变量,我在这里使用的是xshell和xftp来访问linux系统。我使用的linux是centos6.5
(1).拷贝tomcat到linux上(可以使用xftp)
(2).配置环境变量
使用xshell连接linux系统,使用vim usr/profile 命令打开该文件,在最后一行添加java环境变量,如下
配置完成后,退出vim编辑模式,使用source /etc/profile命令来重新启动配置文件,然后输入java -version命令,如果出现如下配置就算java配置好了
(3)配置hadoop,hadoop现在最新版本应该是3.0,这里使用的是2.4版本来演示,注意如果你是64位系统,需要重新编译hadoop的代码,因为官网好像只有32位的版本
注意拷贝可能是压缩包,因此需要使用解压命令:tar -zxvf 压缩文件 -C 解压到的目录
(4)配置hadoop的环境变量,如下图
和添加java环境变量一样,在etc/profile文件下添加,并且,source etc/profile,用来重新启用配置文件
2.搭建伪分布式所需的5个配置文件
至此,hadoop算是安装好了,如果想要使用,还需要做一些配置,下面看看还要做那些配置
2-1.hadoop-env.sh
进入haoop安装目录的etc/hadoop目录下。使用vim打开hadoop-env.sh,修改hadoop-env.sh
27行的java环 境变量的配置,如下图
2-2 core-site.xml
同样,进入haoop安装目录的etc/hadoop目录下。使用vim打开core-site.xml,修改core-site.xml
你会发现一个configuration的标签,在这里配置,如下图
第一个property标签表示:
指定HADOOP所使用的文件系统schema(URI),HDFS的老大(NameNode)的地址
mylinux代表本机ip,9000是端口
第二个property标签表示:
指定hadoop运行时产生文件的存储目录
2-3.hdfs-site.xml
如上,在configuration配置文件配置,如下图
这里的property标签标识:
hdfs的副本数,因为是伪分布式,所以配置为1
2-4.mapred-site.xml
如上,在configuration标签中配置
这里配置的是:指定mr运行在yarn上
2-5 yarn-site.xml
如上,在configruation中配置
第一个配置文件:
指定YARN的老大(ResourceManager)的地址
第二个配置文件:
reducer获取数据的方式
3.启动hadoop
格式化文件系统
hdfs namenode -format (hadoop namenode -format)
启动hadoop
先启动HDFS
sbin/start-dfs.sh
再启动YARN
sbin/start-yarn.sh
验证是否启动成功
验证是否启动成功
使用jps命令验证
27408 NameNode
28218 Jps
27643 SecondaryNameNode
28066 NodeManager
27803 ResourceManager
27512 DataNode
当这些进程都启动成功后,表示hadoop启动成功