我使用的是CentOS6.5,注意是64位的,大小是4GB,需要下载一段时间的。其实6.x的版本都可以,不一定是6.5。
我使用的是VMWare虚拟机,分配了2GB内存,20GB磁盘空间。内存太小,会比较慢;磁盘太小,编译时可能会出现空间不足的情况。上述不是最低配置,根据自己的机器配置修改吧。还有,一定要保持linux联网状态。
设置操作系统环境
1.设置ip地址
1)通过centos桌面操作
使用命令ifconfig查看ip地址
当修改了ip之后,使用命令service network restart重新启动网络服务
vi /etc/sysconfig/network-scripts/ifcfg-eth0
2.设置主机名
hostname查看主机名称
vi /etc/sysconfig/network
绑定主机名到ip上
vi /etc/hosts增加一行记录192.168.1.97 crxy97
错误unknow host :hadoop1之类的原因在于主机名hadoop1没有绑定到ip上面
3.关闭防火墙
service iptables stop
4.关闭防火墙的自启动功能
chkconfig --list |grep iptables
chkconfig iptables off
5.设置SSH免密码登录
ssh-keygen -t rsa
ssh-copy-id -i localhost
6.安装jdk
把jdk-7u79-linux-x64.tar.gz放到linux的/usr/local目录下
执行命令tar -zxvf jdk-7u79-linux-x64.tar.gz解压缩
执行命令vi /etc/profile 增加两行内容,分别是
export JAVA_HOME=/usr/local/jdk1.7.0_79
export PATH=.:$JAVA_HOME/bin:$PATH
保存退出。执行命令source /etc/profile
执行命令java -version查看刚才操作是否生效。
-------------------------------------------------------
HDFS伪分布搭建
修改配置文件etc/hadoop/hadoop-env.sh:
JAVA_HOME=/usr/local/jdk1.7.0_79
修改配置文件etc/hadoop/core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.1.97:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-2.6.0/tmp</value>
</property>
<property>
<name>fs.trash.interval</name>
<value>1440</value>
</property>
</configuration>
修改配置文件etc/hadoop/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
格式化文件系统:
$ bin/hdfs namenode -format
启动HDFS集群:
$ sbin/start-dfs.sh
访问web浏览器:
NameNode - http://localhost:50070/
练习:
创建目录:
$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/root
复制文件:
$ bin/hdfs dfs -put /etc/profile input
关闭集群:
$ sbin/stop-dfs.sh
安装Yarn
修改配置文件etc/hadoop/mapred-site.xml:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
修改配置文件etc/hadoop/yarn-site.xml:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
启动Yarn集群:
$ sbin/start-yarn.sh
访问web浏览器:
ResourceManager - http://localhost:8088/
运行例子:
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount input output
查看结果:
$ bin/hdfs dfs -cat output/*
关闭Yarn集群:
$ sbin/stop-yarn.sh
我使用的是VMWare虚拟机,分配了2GB内存,20GB磁盘空间。内存太小,会比较慢;磁盘太小,编译时可能会出现空间不足的情况。上述不是最低配置,根据自己的机器配置修改吧。还有,一定要保持linux联网状态。
设置操作系统环境
1.设置ip地址
1)通过centos桌面操作
使用命令ifconfig查看ip地址
当修改了ip之后,使用命令service network restart重新启动网络服务
vi /etc/sysconfig/network-scripts/ifcfg-eth0
2.设置主机名
hostname查看主机名称
vi /etc/sysconfig/network
绑定主机名到ip上
vi /etc/hosts增加一行记录192.168.1.97 crxy97
错误unknow host :hadoop1之类的原因在于主机名hadoop1没有绑定到ip上面
3.关闭防火墙
service iptables stop
4.关闭防火墙的自启动功能
chkconfig --list |grep iptables
chkconfig iptables off
5.设置SSH免密码登录
ssh-keygen -t rsa
ssh-copy-id -i localhost
6.安装jdk
把jdk-7u79-linux-x64.tar.gz放到linux的/usr/local目录下
执行命令tar -zxvf jdk-7u79-linux-x64.tar.gz解压缩
执行命令vi /etc/profile 增加两行内容,分别是
export JAVA_HOME=/usr/local/jdk1.7.0_79
export PATH=.:$JAVA_HOME/bin:$PATH
保存退出。执行命令source /etc/profile
执行命令java -version查看刚才操作是否生效。
-------------------------------------------------------
HDFS伪分布搭建
修改配置文件etc/hadoop/hadoop-env.sh:
JAVA_HOME=/usr/local/jdk1.7.0_79
修改配置文件etc/hadoop/core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.1.97:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-2.6.0/tmp</value>
</property>
<property>
<name>fs.trash.interval</name>
<value>1440</value>
</property>
</configuration>
修改配置文件etc/hadoop/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
格式化文件系统:
$ bin/hdfs namenode -format
启动HDFS集群:
$ sbin/start-dfs.sh
访问web浏览器:
NameNode - http://localhost:50070/
练习:
创建目录:
$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/root
复制文件:
$ bin/hdfs dfs -put /etc/profile input
关闭集群:
$ sbin/stop-dfs.sh
安装Yarn
修改配置文件etc/hadoop/mapred-site.xml:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
修改配置文件etc/hadoop/yarn-site.xml:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
启动Yarn集群:
$ sbin/start-yarn.sh
访问web浏览器:
ResourceManager - http://localhost:8088/
运行例子:
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount input output
查看结果:
$ bin/hdfs dfs -cat output/*
关闭Yarn集群:
$ sbin/stop-yarn.sh