一、Hadoop伪分布式的搭建及启动

最新推荐文章于 2023-06-23 13:07:00 发布

东纪元

最新推荐文章于 2023-06-23 13:07:00 发布

阅读量1.7k

点赞数

分类专栏： hadoop linux

本文链接：https://blog.csdn.net/qq_36951116/article/details/89604594

版权

hadoop 同时被 2 个专栏收录

31 篇文章 0 订阅

订阅专栏

linux

14 篇文章 0 订阅

订阅专栏

一、搭建

1、配置hadoop/etc/hadoop/hadoop-env.sh文件

修改其中JAVA_HOME变量为系统jdk的安装目录，也就是在hadoop-env.sh文件中的JAVA_HOME与配置jdk时在/etc/profille中配置的JAVA_HOME环境变量一致。。表示hadoop通过该jdk启动。

2、配置hadoop/etc/hadoop/core-site.xml文件，该配置文件的配置会被hadoop自身、hadoop自带的hdfs、以及自带的yarn读取。。也就是一个公共的配置文件。

只要配置两个属性就行：如下图：

图中有两个属性，fs.defaultFS和hadoop.tmp.dir

（1）fs.defaultFS是hadoop所使用的文件系统的uri，与jdbc的jdbc:mysql://localhost:3306?db1作用差不多，表示当前hadoop使用该URI连接文件系统。

而图中的相应的value值为hdfs://localhost:9000则表示文件系统采用hdfs，然后文件系统的主机地址为localhost...端口为9000

(2) hadoop.tmp.dir 就是指定了该hadoop存储数据(namenode、datanode)的上级目录，所有hadoop相关数据都存放在该目录下，

如果本机有namenode就会在该路径下创建一个name目录用于存放namenode的数据，如果本机还有hdfs的datanode，则hdfs在该目录下还会创建一个data目录用于存放datanode的数据。

3、配置hadoop/etc/hadoop/hdfs-site.xml文件，该配置文件只有hdfs程序会读取。。不想core-site.xml一样大家都会读取，当然，这个配置文件里的配置都可以放到core-site.xml中，一样可以生效，只不过不好维护而已。

有很使用默认配置就行了，图中这个配置是配置datanode对数据块的副本备份数量，如果我们不配置，那么默认value是3。

但是，由于现在配置的是伪分布式的，所以datanode节点只有一个，那么当使用默认值为3，有三个副本，这个时候作用和没有副本备份是一样的，这个节点挂了，有在该节点上有再多副本也都得挂。。所以，value的值没必要大于datanode节点数量

4、配置hadoop/etc/hadoop/mapred-site.xml文件

用于配置mapreduce的，在该文件中现在也只要配置一个东西就行：

mapreduce.framework.name这个是用于指定mapreduce框架是运行在哪个资源管理框架下，value为yarn表示资源管理框架为yarn。

因为mapreduce是一个计算框架，负责把我们的业务代码转成map和reduce任务程序，至于在分布式的情况下这些程序被运行在哪个机器上、以及运行多少份，则由yarn这类资源管理器框架进行调度。。正常情况下我们都用hadoop自带的yarn就行了。

5、配置hadoop/etc/hadoop/yarn-site.xml文件

(1)yarn.resourcemanager.hostname

yarn也是可以集群的，这个resourcemanager是用于配置集群的主节点的主机地址，如果是yarn在本机可以配置为lcoalhost

（2）yarn.nodemanager.aux-services

用于配置yarn的普通节点，在数据调度的时候采用什么机制，这里采用的是mapreduce_shuffle机制，yarn数据调用是什么意思？比如mapreduce时，map阶段完成，此时需要把map的结果进行reduce，那么就要把map的结果数据传输到reduce运行的节点，并且对数据怎么分类传输，分组还是>什么的，就由该机制决定了

到此为止，配置搭建就完成了，接下来就是启动了

二、启动

1、启动前需要先格式化hdfs，把一些信息记录在namenode下

运行命令

hadoop namenode -format

此时，不会成功，而是提示命令找不到，因为这个时候还没把hadoop的命令脚本目录配置为系统的环境变量，所以系统是识别不到命令的，这个时候有两种方式执行。

（1）、在hadoop的根目录下，有个bin目录，在bin下，使用./hadoop name -format就可以执行了，因为该目录下存的就是命令脚本

(2)、把hadoop的命令脚本配置为环境变量，到时候就不需要执行指定目录下的脚本那么麻烦了

hadoop的命令存放在bin和sbin目录下，只要配置PATH环境变量，加上这两个目录，就能像普通操作shell一样使用hadoop命令了

别忘了，source /etc/profile

2、执行start-dfs.sh启动hdfs，该脚本内部是访问之前配置的core-site.xml中配置的fs.defaultFS,然后通过SSH方式发送启动命令，启动value对应的hdfs系统(暂时还不知道是不是会把所有hdfs分布式节点都启动，因为现在是只有本机有hdfs，等后面真分布式的在讨论)

3、执行start-yarn.sh启动yarn资源管理器，应该也是读取yarn-site.xml的配置。读取下面这个吧？现在是猜测，因为刚开始学习，搭建这方面先不深入研究

这样的话，hadoop就搭建完了，可以使用jps查看java程序的进程，如图：

hdfs：namenode、datanode、secondaryNameNode

yarn：resourceManager、nodeManager

怎么没有mapreduce呢？

因为mapreduce是我们写的程序丢上去之后在yarn的调度下才开始运行的。。所以现在看不见。。本篇完

东纪元

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
一、Hadoop伪分布式的搭建及启动

一、搭建1、配置hadoop/etc/hadoop/hadoop-env.sh文件修改其中JAVA_HOME变量为系统jdk的安装目录，也就是在hadoop-env.sh文件中的JAVA_HOME与配置jdk时在/etc/profille中配置的JAVA_HOME环境变量一致。。表示hadoop通过该jdk启动。2、配置hadoop/etc/hadoop/core-site.xm...
复制链接

扫一扫