MapReduce运行自带的wordcount
一、 找到hadoop-mapreduce-examples-2.2.0.jar
二、 在HDFS文件系统上新建数据目录
hadoop fs -mkdir -p
三、 将本地文件上传到HDFS中
1. 先将window文件上传到linux
2. 将linux文件上传到HDFS文件系统中
3. 在HDFS文件中查看上传文件
hadoop fs -text /hadooptest/input/words.txt
四、 运行wordcount例子
hadoop jar /usr/hadoop/hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jarwordcount /hadooptest/input /hadooptest/output/
原因:输出文件路径已经存在
运行:
五、 卡在running job
经验:重新搭了一遍集群。启动之后slave的jps会出现nodemanager进程。而之前的集群是没有这个进程的。
解决:
1. 修改core-site.xml
<property>
<name>hadoop.tmp.dir</name>
<value>file:/hadoop/tmp</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
2. 修改hdfs-site.xml
3. 修改mapred-site.xml
<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>
</property>
<property>
<name>mapred.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
4. 修改yarn-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8035</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
5. 修改yarn.env.sh
6. 修改hadoop-env.sh
六、 将改完的文件分配到其他节点。重启Hadoop
七、 重新启动wordcount
运行通过。查看master:8088
八、 查看输出结果
输入命令:
hadoop fs -cat /hadooptest/wordcount/output/part-r-00000