一、准备Linux环境
1.0安装虚拟机
1.1修改主机名
可参照如下链接
二、处理防火墙
查看防火墙状态
service iptables status
关闭防火墙
service iptables stop
查看防火墙开机启动状态
chkconfig iptables --list
关闭防火墙开机启动
chkconfig iptables off
三、配置ssh免登陆
#生成ssh免登陆密钥
进入到我的home目录
cd ~/.ssh
ssh-keygen -t rsa (四个回车)
执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)
将公钥拷贝到要免登陆的机器上
ssh-copy-id localhost
输入这一步后会提示输入要远程登录的主机密码
四、安装JDK
如果已经安装jdk了可以用如下命令查看安装路径:
whereis java
which java (java执行路径)
echo $JAVA_HOME
1、上传
2、创建文件夹、解压jdk
mkdir /usr/java
解压
tar -zxvf jdk-7u55-linux-i586.tar.gz -C /usr/java/
3、将java添加到环境变量中
vi /etc/profile
在文件最后添加
export JAVA_HOME=/usr/java/jdk1.7.0_79
export PATH=$PATH:$JAVA_HOME/bin
#刷新配置
source /etc/profile
或用
source ~/.bashrc
4、运行java -version 查看是否安装成功
五、安装hadoop2.7
**1、上传hadoop压缩包**
**2、解压**
tar -zvxf hadoop.x.x
**3、修改hadoop配置文件**
第一个:hadoop-env.sh
vi hadoop-env.sh
#第27行(查看java安装路径:echo $JAVA_HOME)
export JAVA_HOME=/gdmc/usr/java/jdk1.7.0_55
第二个:core-site.xml
( 在当前用户下创建目录 /home/admin/temp/hadoop-2.7.2/tmp)
<!-- 制定HDFS的NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://gdmcc:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/admin/temp/hadoop-2.7.2/tmp</value>
</property>
第三个:hdfs-site.xml
<!-- 指定HDFS副本的数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
第四个:mapred-site.xml (mv mapred-site.xml.template mapred-site.xml)
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
<!-- 指定mr运行在yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
第五个:yarn-site.xml
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>gdmcctest</value>
</property>
<!-- reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
**4、将hadoop添加到环境变量**
vi /etc/proflie
export JAVA_HOME=/gdmcc/usr/java/jdk1.7.0_55
export HADOOP_HOME=/home/admin/temp/hadoop-2.7.2
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source ~/.bashrc
或
source /etc/profile
六、运行hadoop
1、先对namenode进行格式化
hadoop namenode -format
2、启动hadoop
sh start-dfs.sh
sh start-yarn.sh
通过jps 查看启动结果,如下图所示则启动成功
3、在web界面查看hdfs和RM
http://192.168.x.x:50070
4、http://host:8088/
七、操作hadoop shell命令
1、创建目录
hadoop fs -mkdir /test/
2、上传文件到/test/目录
hadoop fs -put test.txt /test/
3、查看/test/目录下的文件
hadoop fs -ls /test/
4、hadoop fs -cat /test/1234.txt
八、在hadoop环境下运行wordCount案例
1、在eclipse中将wordCount打包成jar包
2、执行hadoop jar x.jar ×××.MainClassName inputPath outputPath
其中
x.jar为包的名称,包括路径,直接写包名称,则为默认路径
×××.MainClassName为运行的类名称
inputPath为输入路径
outputPath为输出路径。 (不需要在执行前创建该目录,在执行过程中会自动创建)
运行结果如下图所示
input下的文件如下所示: