Hadoop配置与使用

最新推荐文章于 2024-05-12 14:37:42 发布

K_122

最新推荐文章于 2024-05-12 14:37:42 发布

阅读量442

点赞数

分类专栏： java 大数据 hadoop 文章标签： hadoop 分布式 hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/K_122/article/details/79392026

版权

java 同时被 3 个专栏收录

17 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

一，介绍

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

它主要解决以下三个问题

1.海量的数据存储（HDFS）

2.海量的数据分析（MapReduce）

3.资源管理调度（YARN）

1.Hadoop的配置

因为hadoop是基于java编写的，因此需要配置java的环境变量，我在这里使用的是xshell和xftp来访问linux系统。我使用的linux是centos6.5

(1).拷贝tomcat到linux上（可以使用xftp）

(2).配置环境变量

使用xshell连接linux系统，使用vim usr/profile 命令打开该文件，在最后一行添加java环境变量，如下

配置完成后，退出vim编辑模式，使用source /etc/profile命令来重新启动配置文件，然后输入java -version命令，如果出现如下配置就算java配置好了

（3）配置hadoop，hadoop现在最新版本应该是3.0，这里使用的是2.4版本来演示，注意如果你是64位系统，需要重新编译hadoop的代码，因为官网好像只有32位的版本

注意拷贝可能是压缩包，因此需要使用解压命令：tar -zxvf 压缩文件 -C 解压到的目录

（4）配置hadoop的环境变量，如下图

和添加java环境变量一样，在etc/profile文件下添加，并且，source etc/profile，用来重新启用配置文件

2.搭建伪分布式所需的5个配置文件

至此，hadoop算是安装好了，如果想要使用，还需要做一些配置，下面看看还要做那些配置

2-1.hadoop-env.sh

进入haoop安装目录的etc/hadoop目录下。使用vim打开hadoop-env.sh,修改hadoop-env.sh

27行的java环境变量的配置，如下图

2-2 core-site.xml

同样，进入haoop安装目录的etc/hadoop目录下。使用vim打开core-site.xml,修改core-site.xml

你会发现一个configuration的标签，在这里配置，如下图

第一个property标签表示：

指定HADOOP所使用的文件系统schema（URI），HDFS的老大（NameNode）的地址

mylinux代表本机ip,9000是端口

第二个property标签表示：

指定hadoop运行时产生文件的存储目录

2-3.hdfs-site.xml

如上，在configuration配置文件配置，如下图

这里的property标签标识：

hdfs的副本数，因为是伪分布式，所以配置为1

2-4.mapred-site.xml

如上，在configuration标签中配置

这里配置的是：指定mr运行在yarn上

2-5 yarn-site.xml

如上，在configruation中配置

第一个配置文件：

指定YARN的老大（ResourceManager）的地址

第二个配置文件：

reducer获取数据的方式

3.启动hadoop

格式化文件系统

hdfs namenode -format (hadoop namenode -format)

            启动hadoop
       先启动HDFS
              sbin/start-dfs.sh

          再启动YARN

sbin/start-yarn.sh

验证是否启动成功

               验证是否启动成功
               使用jps命令验证
                   27408 NameNode
           28218 Jps
       27643 SecondaryNameNode
         28066 NodeManager
       27803 ResourceManager

27512 DataNode

当这些进程都启动成功后，表示hadoop启动成功

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop配置与使用

一，介绍 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。它主要解决以下三个问题 1.海量的数据存储（HDFS） 2.海量的数据分析（MapReduce） 3.资源管理调度（YARN） 1.Hadoop的配置因为hadoop是...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。