hadoop2.7.1环境搭建

在老板的支持下,陆续划拉到了10几台机器,绑定了固定IP,工作之余开始了Hadoop之旅。将要点记录下来,以备查阅。

硬件构成:

Resource

Volume

CPU

2 cores

Memory

4 GB

Disk

500   GB

Network

100 M

软件构成:

Name

Version

Install   Path

CentOS

6.7 x86_64

/

Oracle JDK

7u79-linux-x64

/usr/local/java/

Hadoop

2.7.1

/home/hadoop/

Flume

1.6.0

/home/flume/

Maven

3.3.9

/usr/local/maven/

Ant

1.9.6

/usr/local/ant

MySQL

5.6.21 Community Server

/home/mysql/

D3.js

v3

整体架构:

110806_bMOU_668872.png

DFS和Yarn构成:

110919_woSb_668872.png

各个节点需要的配置:

114222_lduZ_668872.png

调试hadoop节点用到的命令:

sbin/hadoop-daemon.sh start journal
bin/hdfs namenode format
sbin/hadoop-daemon.sh start namenode
bin/hdfs namenode -bootstrapStandby
sbin/hadoop-daemon.sh start namenode
bin/hdfs haadmin -transitionToActive nn1
sbin/hadoop-daemons.sh start datanode
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager

调试完毕后的集群启动/关闭命令:

sbin/start-dfs.sh
sbin/start-yarn.sh
bin/hdfs haadmin -transitionToActive nn1

sbin/stop-dfs.sh
sbin/stop-yarn.sh

DFS管理界面:

112511_6HAC_668872.png

YARN管理界面:

112549_hAHu_668872.png

正在把150G日志手动导入DFS,暂时还没用上Flume,后面逐步集成进来。

MR运行结果存入DFS或者灌入MySQL都试验成功,回头整理。

Yarn的资源队列临时配置了一个,现在只是能跑,还不明白咋回事,抽时间继续研究。

在4个data node节点上(昨晚才凑到9节点)对15G日志跑一个过滤useragent的MR,需要8分钟,这样算下来需要1天时间才能对1个月的日志解析完,孰能忍!性能优化需要陆续展开。

配置文件的内容参考了hadoop官网,董西成博客,感谢董先生无私分享。

转载于:https://my.oschina.net/stephenyng/blog/591488

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值