大数据集群环境搭建

最新推荐文章于 2024-07-28 19:47:01 发布

老菜鸟哼哼哈嘿

最新推荐文章于 2024-07-28 19:47:01 发布

阅读量1.3w

点赞数 8

分类专栏： hadoop 文章标签： hadoop spark 大数据集群

本文链接：https://blog.csdn.net/sdy1985/article/details/52055196

版权

本手册详细阐述了大数据集群环境的搭建过程，包括操作系统的选择（CentOS_6.7_x64），JAVA环境的配置（jdk1.8.0_102），以及Hadoop和Spark等组件的部署。

摘要由CSDN通过智能技术生成

1 概述
本手册包括大数据集群环境搭建的全部环境步骤说明，例如环境准备（操作系统、JAVA环境等）、Hadoop、Spark、NoSQL数据库等。
2 环境准备
2.1 操作系统

安装操作系统：操作系统统一采用CentOS_6.7_x64。

2.2 搭建JAVA环境

下载jdk1.8.0_102
上传至服务器解压 – 例如解压目录 /usr/local/jdk1.8.0_102
vi /etc/profile
在末尾加入
export JAVA_HOME=/usr/local/jdk1.8.0_102
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
source profile

2.3 安装ssh
（1）ubuntu:
Install: apt-get install openssh-server
Start: sudo service ssh start
Stop: sudo service ssh stop
Restart: sudo service ssh restart
查看ssh服务是否启动: ps –e|grep ssh
vim /etc/ssh/sshd_config => PermitRootLogin yes
（2）centos: yum install openssh-server -- 先用ssh –v查看是否已经预装
2.4 *安装rsync
 选择性安装
 检查rsync是否安装：dpkg –list|grep rsync
 安装rsync：apt-get install rsync / yum install rsync
2.5 *安装maven
 如需要编译源码则安装，否则可忽略
 下载maven，上传解压到服务器目录 ---- 例如上传到/usr/local

 vi /etc/profile ---- 配置maven环境变量
 source /etc/profile ---- 使配置生效
 mvn –version ---- 查看版本
3 搭建Hadoop环境
3.1 单节点
3.1.1安装Hadoop
 下载hadoop-2.7.2
 cd /usr/local
 sudo tar zxvf {PATH}/hadoop-2.7.2.tar.gz
 配置JDK:
cd /usr/local/hadoop-2.7.2
vim etc/hadoop/hadoop-env.sh export JAVA_HOME={jdk 绝对路径}
 ./bin/hadoop version
 启动hadoop: sudo ./skin/start-all.sh
3.1.2运行一个测试用例
 sudo mkdir input
 cp etc/hadoop/*.xml input
 sudo . bin/hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+' --统计输入中包括dfs开头的单次数
 $ cat output/* --查看结果 1 dfsadmin
 如果要重新运行例子，先删除onput目录，不然会报错
3.2 伪分布式
3.2.1配置core-site.xml
 sudo vim etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
3.2.2配置hdfs-site.xml
 sudo vim etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3.2.3配置ssh无密码登录
 su root --切换至root用户
 ssh-keygen -t rsa --会有提示，都按回车就可以
 cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys --加入授权
 scp /root/.ssh/authorized_keys root@192.168.72.101:/root/.ssh
。。。。。。
---- 将/root/.ssh/authorized_keys复制到其它节点

3.2.4在hdfs执行
 cd /usr/local/hadoop-2.7.2
 bin/hdfs namenode –format
 sudo sbin/start-dfs.sh
 NameNode - http://localhost:50070/
3.2.5在yarn执行
 vim etc/hadoop/mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
 vim etc/hadoop/yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
 sudo sbin/start-yarn.sh
 http://localhost:8088/
3.2.6运行一个测试用例
 bin/hdfs dfs -mkdir /user
 bin/hdfs dfs -mkdir /user/<username>
 bin/hdfs dfs -put etc/hadoop input
 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'
 bin/hdfs dfs -get output output
 cat output/*
 (bin/hdfs dfs -cat output/*)
3.3 完全分布式
3.3.1 搭建JAVA环境
 参照2.3
 所有节点都需要进行java环境变量配置
3.3.2 配置hosts
 vi /etc/hosts
 所有节点都需要加入以下内容
192.168.72.100 namenode.domian
20.0.2.74 namenode2.domain
192.168.72.101 datanode1.domain
192.168.72.102 datanode2.domain
192.168.72.103 datanode3.domain
192.168.72.104 datanode4.domain
3.3.3 配置ssh无密码登录
 su- root --切换至root用户
 ssh-keygen -t rsa --会有提示，都按回车就可以
 cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys --加入授权
 将authorized_keys复制到其它节点
 ssh localhost 测试是否还需要输入密码
 将所有节点执行一次ssh-keygen -t rsa
 将各节点id_rsa.pub中的秘钥汇总到一个authorized_keys文件，将该文件复制到各个节点
3.3.4 关闭防火墙
 重启后生效(永久关闭)
开启： chkconfig iptables on
关闭： chkconfig iptables of
 即时生效，重启后失效
开启： service iptables start
关闭： service iptables stop
3.3.5 安装hadoop
 下载hadoop-2.7.2
 上传至服务器解压 – 例如解压目录 /usr/local/bigdata/hadoop-2.7.2
 vi /etc/profile
export HADOOP_HOME=/usr/local/bigdata/hadoop-2.7.2
export PATH=$ HADOOP_HOME/bin:$ HADOOP_HOME/sbin:$PATH
source /etc/profile
3.3.6 配置hadoop-env.sh
 cd /usr/local/bigdata/hadoop-2.7.2
 vi etc/hadoop/hadoop-env.sh 在文件最后面加入
 export JAVA_HOME=/usr/local/jdk1.8.0_92 （一定要用jdk 绝对路径）
3.3.7 配置masters
 cd /usr/local/bigdata/hadoop-2.7.2
 vi etc/hadoop/masters 配置如下内容
namenode2.domain
3.3.8 配置slaves
 cd /usr/local/bigdata/hadoop-2.7.2
 vi etc/hadoop/slaves 配置如下内容
namenode2.domain
datanode1.domain
datanode2.domain
datanode3.domain
datanode4.domain
3.3.9 配置core-site.xml
