Hadoop学习心得整理（环境搭建与使用）

最新推荐文章于 2022-08-29 21:53:06 发布

小小抄写员

最新推荐文章于 2022-08-29 21:53:06 发布

阅读量4.5k

点赞数 3

分类专栏：学习文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/cl135795680/article/details/88633651

版权

本文详细介绍了如何在三台虚拟机上搭建Hadoop环境，包括配置core-site.xml、hdfs-site.xml、slaves、yarn-site.xml、mapred-site.xml等文件，以及HDFS的使用。此外，还讲解了通过MyEclipse操作HDFS，MapReduce的Map和Reduce类实现，以及Job提交器的创建。最后，提到了如何打包并运行自定义的MapReduce程序。

摘要由CSDN通过智能技术生成

准备环境：三台虚拟机，hadoop安装包，JDK1.8。（安装过程借鉴https://blog.csdn.net/hliq5399/article/details/78193113博客）

下载hadoop的压缩包到linux解压，进入解压目录下的etc/hadoop目录下，设置相关配置

配置core-site.xml（核心配置文件）

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop1:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/modules/hadoop-2.7.7/data/tmp</value>
</property>
</configuration>

fs.defaultFS：设置NameNode的地址（namenode负责管理所有hdfs文件的目录）

hadoop.tem.dir：NameNode和DataNode的实际数据存储地址（注：不是临时存储路径，是真实数据存储地址，此目录必须存在，若不存在先创建）

配置hdfs-site.xml

<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop3:50090</value>
</property>
</configuration>

设置secondaryNameNode的地址和端口（辅助NameNode完成数据目录管理）

配置slaves

hadoop1
hadoop2
hadoop3

指定HDFS上有哪些DataNode节点

配置yarn-site.xml（yarn：资源管理器）

<configuration>


<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop2</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.