这几天闲来无事,作为一个资深的技术宅,无聊之余准备学习一下Hadoop这个大数据的框架。由于手头只有一台Mac电脑,所以只有在它上面搭建了,但是网上都是一些Window或者Linux的搭建教程,无法参考,就自己摸索着试了一下,之中的曲折不必多说,下面我分享下我的搭建过程,供大家参考。
1、下载软件
首先,我们需要到官方下载hadoop安装包,我下载的是hadoop-2.2.0,这个版本是比较新的版本,并且相对来说比较稳定。
2、解压
下载hadoop-2.2.0.tar.gz之后,解压并复制到安装目录,tar -zxvf hadoop-2.2.0.tar.gz -C /usr/local/soft/
3、安装JAVA和SSH
因为Hadoop是基于Java的,所以需要安装Java,又因为Hadoop使用类Shell的脚本命令来管理Hadoop的守护进程的,所以需要SSH这个工具,关于这两个工具的安装,在这里不做介绍。
4、配置Hadoop环境
在Hadoop的安装目录下的etc/hadoop找到hadoop-env.sh这个文件,添加以下内容
5、配置Hadoop的环境变量
编辑/etc/bashrc这个文件(我习惯这个文件,你也可以是/etc/profile等文件)
保存退出,运行source /etc/profile 使配置生效
6、检查是否安装成功
hadoop version,出现一下信息则安装成功
7、进行单机的伪分布式操作的配置
在Hadoop2.x之后关于分布式的配置文件都是在etc/hadoop文件夹下,主要有core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml这四个文件,其中core-site和hdfs-site主要是针对HDFS分布式文件系统的,而mapred-site和yarn-site主要是针对Map/Reduce的配置
1)配置core-site.xml
修改Hadoop核心配置文件core-site.xml,这里配置的是HDFS的地址和端口号。
2)配置hdfs-site.xml
配置namenode的目录、datanode的目录和副本数量
(备注:replication 是数据副本数量,默认为3,salve少于3台就会报错)
3)配置mapred-site.xml
4)配置yarn-sit.xml
8、配置SSH免登陆
1)首先,运行ssh localhost,是否可以登录到本地终端
2)如果不能,则进行以下操作
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
9、启动Hadoop
以管理员身份依次运行hadoop namnode -formate、start-dfs.sh和start-yarn.sh
10、验证是否启动成功
以管理员身份运行Jps查看Hadoop各个节点的运行进程
PS:在Hadoop进行hadoop启动的时候可能出现错误,无法启动或者启动出错,这些错误的解决方案在网上都可以找到,在这里不再赘述。