1.安装hadoop2.4.1
1.1上传hadoop包
1.2解压hadoop包
首先在根目录创建一个cloud目录
mkdir /cloud
tar -zxvf hadoop-1.1.2.tar.gz -C /cloud/
注意:hadoop2.x的配置文件$HADOOP_HOME/etc/hadoop
2.伪分布式需要修改5个配置文件
2.1:到 hadoop 目录
cd /cloud/hadoop-2.4.1/etc/hadoop
2.2 配置hadoop
第一个:hadoop-env.sh
vim hadoop-env.sh
jdk路径 : /usr/java/jdk1.7.0_79
修改java_home 为实际路径
export JAVA_HOME=/usr/java/jdk1.7.0_79
第二个:core-site.xml
configuration节点下
<!-- 制定HDFS的老大(NameNode)的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://redhat:9000</value><!--redhat为机器名,也可为ip-->
</property>
<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/cloud/hadoop-2.4.1/tmp</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value><!--副本数量,这里是伪分布,只有一个主机,所以为1-->
</property>
第四个:mapred-site.xml
因为没有这个site文件,只有site.template文件(site的模板)
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>redhat</value><!--主机名或ip>
</property>
<!-- reducer获取数据的方式 ,nodemanager获取数据的方式是shuffle方式-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
3将hadoop添加到环境变量
vim /etc/proflie
export JAVA_HOME=/usr/java/jdk1.7.0_65
export HADOOP_HOME=/cloud/hadoop-2.4.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile
4.格式化HDFS 格式化文件系统(是对namenode进行初始化)
hdfs namenode -format (hadoop namenode -format 过时了)
5.启动hadoop
cd /cloud/hadoop-2.4.1/sbin
./start-all.sh(过时了,最新的需要分别启动)
连续输入密码
先启动HDFS
./start-dfs.sh
再启动YARN
./start-yarn.sh
6.验证是否启动成功
使用jps命令验证
27408 NameNode
28218 Jps
27643 SecondaryNameNode
28066 NodeManager
27803 ResourceManager
27512 DataNode
http://192.168.8.118:50070 (HDFS管理界面)
创建 hdfs文件 hadoop fs -mkdir /jdk (也可不用创建,上传时没有默认创建)
上传 hdfs文件 hadoop fs -put jdk-7u79-linux-i586.tar.gz hdfs://redhat:9000/jdk (上传本地文件到hdfs的jdk中)
下载hdfs文件 hadoop fs -get hdfs://redhat:9000/jdk /home/jdk1.7 (下载到linux本地的home下的jdk1.7文件夹中)
8.测试yarn
cd /cloud/hadoop-2.4.1/share/hadoop/mapreduce
vi words
输入任意字符
保存退出
9.使用hadoop统计
hadoop jar hadoop-mapreduce-examples-2.4.1.jar 显示命令提示
hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount 显示命令提示需要两个参数
hadoop fs -put words hdfs://redhat:9000/words
上传到hdfs
统计
hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount hdfs://redhat:9000/words hdfs://redhat:9000/out
统计单词出现的次数
1.1上传hadoop包
1.2解压hadoop包
首先在根目录创建一个cloud目录
mkdir /cloud
tar -zxvf hadoop-1.1.2.tar.gz -C /cloud/
注意:hadoop2.x的配置文件$HADOOP_HOME/etc/hadoop
2.伪分布式需要修改5个配置文件
2.1:到 hadoop 目录
cd /cloud/hadoop-2.4.1/etc/hadoop
2.2 配置hadoop
第一个:hadoop-env.sh
vim hadoop-env.sh
jdk路径 : /usr/java/jdk1.7.0_79
修改java_home 为实际路径
export JAVA_HOME=/usr/java/jdk1.7.0_79
第二个:core-site.xml
configuration节点下
<!-- 制定HDFS的老大(NameNode)的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://redhat:9000</value><!--redhat为机器名,也可为ip-->
</property>
<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/cloud/hadoop-2.4.1/tmp</value>
</property>
第三个:hdfs-site.xml
configuration节点下
<!-- 指定HDFS副本的数量 --><property>
<name>dfs.replication</name>
<value>1</value><!--副本数量,这里是伪分布,只有一个主机,所以为1-->
</property>
第四个:mapred-site.xml
因为没有这个site文件,只有site.template文件(site的模板)
mv mapred-site.xml.template mapred-site.xml
或者cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
configuration节点下
<!-- 告诉hadoop以后mr运行在yarn上 --><property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
第五个:yarn-site.xml
configuration节点下
<!-- 指定YARN的老大(ResourceManager)的地址 --><property>
<name>yarn.resourcemanager.hostname</name>
<value>redhat</value><!--主机名或ip>
</property>
<!-- reducer获取数据的方式 ,nodemanager获取数据的方式是shuffle方式-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
3将hadoop添加到环境变量
vim /etc/proflie
export JAVA_HOME=/usr/java/jdk1.7.0_65
export HADOOP_HOME=/cloud/hadoop-2.4.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile
4.格式化HDFS 格式化文件系统(是对namenode进行初始化)
hdfs namenode -format (hadoop namenode -format 过时了)
5.启动hadoop
cd /cloud/hadoop-2.4.1/sbin
./start-all.sh(过时了,最新的需要分别启动)
连续输入密码
先启动HDFS
./start-dfs.sh
再启动YARN
./start-yarn.sh
6.验证是否启动成功
使用jps命令验证
27408 NameNode
28218 Jps
27643 SecondaryNameNode
28066 NodeManager
27803 ResourceManager
27512 DataNode
http://192.168.8.118:50070 (HDFS管理界面)
http://192.168.8.118:8088 (yarn管理界面)
创建 hdfs文件 hadoop fs -mkdir /jdk (也可不用创建,上传时没有默认创建)
上传 hdfs文件 hadoop fs -put jdk-7u79-linux-i586.tar.gz hdfs://redhat:9000/jdk (上传本地文件到hdfs的jdk中)
下载hdfs文件 hadoop fs -get hdfs://redhat:9000/jdk /home/jdk1.7 (下载到linux本地的home下的jdk1.7文件夹中)
8.测试yarn
cd /cloud/hadoop-2.4.1/share/hadoop/mapreduce
vi words
输入任意字符
保存退出
wc words 统计单词 (结果只显示每行的单词数量)
more words(查看内容)9.使用hadoop统计
hadoop jar hadoop-mapreduce-examples-2.4.1.jar 显示命令提示
hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount 显示命令提示需要两个参数
hadoop fs -put words hdfs://redhat:9000/words
上传到hdfs
统计
hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount hdfs://redhat:9000/words hdfs://redhat:9000/out
统计单词出现的次数