包含hadoop、hive、hbase、zookeeper、storm、spark、Kafka、flume、sqoop
一、服务器基本配置
服务器系统版本:CentOS release 6.4 (Final)
JDK版本:java version “1.7.0_60*
二、 集群信息
三、 各组件版本信息
四、安装步骤
4.1 环境基本配置
addusr hadusr #创建用户
passwd hadusr #修改密码
mkdir hdfs hdfs_tmp #创建文件夹
chown -R hadusr:hadusr hdfs hdfs_tmp #设置文件夹宿主
vi /etc/sysconfig/network #修改主机名 重启后生效
vi /etc/hosts #配置IP 主机名映射
4.2 配置集群无密登陆
#生成秘钥
A、ssh-keygen -t rsa
#收集所有机器上.ssh下生成的id_rsa.pub(公钥文件),
#并将所有的公钥文追加至authorized_keys文件
B、cat id_rsa.pub >> authorized_keys
#将公钥分发至所有机器(以hdp04为例)
C、scp -r ~/.ssh/authorized_keys hdp04:/home/hadusr/.ssh/
D、然后赋权:chmod 600 authorized_keys #给公钥文件赋权
4.3 hadoop安装配置
a、配置core-site.xml文件
<property>
<name>hadoop.tmp.dir</name>
<value>/hdfs/hadoop_tmp</value>
<description>
Abase for other temporary directories.
</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hdp01:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>4096</value>
</property>
配置b、java环境变量
vi hadoop-env.sh 和 yarn-env.sh
#在开头添加如下JAVA环境变量(一定要添加切勿少了)
export JAVA_HOME=/soft/jdk1.7.0_79
c、配置hdfs-site.xml文件
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///hdfs_tmp/hadoop_name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///hdfs_tmp/hadoop_data</value>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.nameservices</name>
<value>hadoop-cluster1</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hdp01:50090</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
d、配置mapred-site.xml文件
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
<final>true</final>
</property>
<property>
<name>mapreduce.jobtracker.http.address</name>
<value>hdp01:50030</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>hdp01:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hdp01:19888</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>http://hdp01:9001</value>
</property>
e、配置yarn-site.xml文件
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hdp01</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>hdp01:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>hdp01:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>hdp01:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>hdp01:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>hdp01:8088</value>
</property>
f、配置slaves
vi slaves 将slaves节点的机器配置在该文件
g、格式化集群
将以上配置好的hadoop分发至集群其它机器上
h、格式化集群
hadoop namenode -format
i、配置环境变量后启动
start-all.sh
j、查看集群状态
hdfs dfsadmin –report