Hadoop数据分析平台搭建

最新推荐文章于 2023-10-01 17:51:25 发布

weixin_34381687

最新推荐文章于 2023-10-01 17:51:25 发布

阅读量83

点赞数

文章标签：大数据 java 运维

原文链接：http://blog.51cto.com/duwolfde/1283920

版权

一．配置安装环境

1> 在虚拟机Vmware上搭建三台Red Hat Enterprise linux，其中一台为master，另外两台位slaves。

2> 下载相关的软件，如java jdk、hadoop-0.20.2等。

二．安装和配置步骤

1> 要是hadoop能过正常的免密码在各个节点中连接传输数据，最重要的是配置SSH，生成密钥。

2> jdk的安装，修改/etc/profile文件。

3> hadoop安装，同时也要修改hadoop下conf目录下的core-site.xml、hdfs-site.xml和mapred-site.xml三个核心文件。

4> 最后是格式化HDFS和启动hadoop。

三．Hadoop数据分析平台

v 1>查看hadoop集群

结果如下图所示，其中master为Namenode，JobTracker，SecondaryNamenode。在这里就需说下上面三个单词的意思。

Namenode：是HDFS的守护进程。记录文件时如何分割成数据块的，以及这些数据块被存储在哪些节点上，同时Namenode是个单点，发生故障会是集群崩溃。

SecondaryNamenode：是监控HDFS状态的辅助后台程序，每个集群都有一个，它的作用是当Namenode故障时可以作为备用Namenode使用。但需要手动切换。

JobTracker：是用于处理作业的后台程序，决定哪些文件参与处理，然后切割task并分配节点，每个集群只有一个JobTracker且位于master上。

Master：

slave1和slave2：

其中slaves上只有DataNode和TaskTracker

DataNode:负责把HDFS数据块读写到本地文件系统中。

TaskTrecker：管理各自节点上的task。

由上图可知在这个集群中有三个节点，其中一个master，两个slaves。

下图显示的是NaneNode，可以看到的信息是：

这个集群总共的容量是Configured Capacity ： 46.32G

DFS使用了 DFS Used ： 84 KB

存在的节点数是 Live Nodes ： 3

v 2> 测试hadoop集群

通过运行wordcount这个功能来测试，看上图可以只map和reduce的完成度，

得知已经成功运行了一次作业Completed Jobs。

转载于:https://blog.51cto.com/duwolfde/1283920

weixin_34381687

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop数据分析平台搭建

一．配置安装环境1> 在虚拟机Vmware上搭建三台Red Hat Enterprise linux，其中一台为master，另外两台位slaves。2> 下载相关的软件，如java jdk、hadoop-0.20.2等。二．安装和配置步骤1> 要是hadoop能过正常的免密码在各个节点中连接传输数据，最重要的是配置SSH，生成密钥。2> jdk的安装...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。