在Linux下搭建Hadoop分布式集群

【设置网络连接】

首先我们要设置虚拟机NAT方式(自动分配IP地址)连接外网

进行更新源的操作(具体操作见:http://blog.csdn.net/arnold_lee_yc/article/details/74846263)

【安装Mysql】

sudo apt install mysql-server

验证是否安装成功

mysql -uroot -pa
show databases;
exit

【创建jar包存放目录】

mkdir software
cd ~/software

【上传jdk hadoop】

rz

【在/目录下创建文件夹】

sudo mkdir mysoftware

【更改mysoftware所属】

sudo chown -R hadoop:hadoop mysoftware

【进入mysoftware并解压jdk、hadoop】

cd mysoftware
tar -zxvf ~/software/jdk-8u101-linux-x64.tar.gz
tar -zxvf ~/software/hadoop-2.7.3.tar.gz

【配置环境变量】

vim ~/.profile
输入以下内容:
export JAVA_HOME=/mysoftware/jdk1.8.0_101
export HADOOP_HOME=/mysoftware/hadoop-2.7.3
export PATH="$JAVA_HOME/bin:$HADOOP_HOME/bin:$HOME/bin:$HOME/.local/bin:$PATH"

【重启虚拟机检查是否安装成功】

sudo reboot
javac -version
java -version
hadoop version
【更改NAT连接方式,不再自动分配地址】(这样当我们在不同环境开发,都不用去修改ip地址)



【将ip地址修改为静态ip】

sudo vim /etc/network/interfaces


【配置主从机ip地址映射】

sudo vim /etc/hosts


【初始化ssh(便于无密码登录)】

rm -rf .ssh
ssh-keygen -t rsa -P ""
cat id_rsa.pub >> authorized_keys

【添加配置信息】

cd /mysoftware/hadoop-2.7.3/etc/hadoop/
vim hadoop-env.sh
输入以下内容:
export JAVA_HOME=/mysoftware/jdk1.8.0_101

vim core-site.xml
输入以下内容:
<configuration>
   <!--外部访问hadoopURL-->
  <property>
     <name>fs.default.name</name>
     <value>hdfs://master:9000</value>
  </property>

   <!--hadoop产生临时文件所存放的位置-->
  <property>
     <name>hadoop.tmp.dir</name>
     <value>file:/mysoftware/hadoop-2.7.3/tmp</value>
  </property>
</configuration>

vim hdfs-site.xml
输入以下内容:
<configuration>
     <!--文件系统中每一个文件块的重复份数,建议使用奇数份-->
   <property>
     <name>dfs.replication</name>
     <value>3</value>
   </property>

     <!--文件系统中元数据存放的位置-->
   <property>
     <name>dfs.namenode.name.dir</name>
     <value>file:/mysoftware/hadoop-2.7.3/dfs/name</value>
   </property>

     <!--文件系统数据块存放的位置,数据块的大小默认是128M-->
   <property>
     <name>dfs.datanode.data.dir</name>
     <value>file:/mysoftware/hadoop-2.7.3/dfs/data</value>
   </property>

     <!--对文件系统中数据访问时是否进行权限验证,默认true-->
   <property>
     <name>dfs.permissions</name>
     <value>false</value>
   </property>
</configuration>

cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
输入以下内容:
<configuration>
     <!--hadoop分布式计算框架的处理交给哪个平台处理-->
   <property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
   </property>
</configuration>

vim yarn-site.xml
输入以下内容:
<configuration>
     <!--hadoop分布式计算框架的资源调度管理的主机-->
   <property>
     <name>yarn.resourcemanager.hostname</name>
     <value>master</value>
   </property>

     <!--hadoop分布式计算框架的资源处理方式-->
   <property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
   </property>
</configuration>

vi slaves
输入以下内容:
slave01
slave02
slave03


【克隆主机】
进入每一个克隆机修改IP地址和主机名

sudo vim /etc/network/interface			配置IPv4 子网掩码 默认网关(网段要和VMnet8的网段一致)
sudo vim /etc/hostname                          分别改为slave01  slave02  slave03 

【启动hadoop】
第一次启动时执行格式化操作(仅第一次使用时执行,只有再也不用格式化)

hdfs namenode -format
启动hadoop分布式存储系统

cd /mysoftware/hadoop-2.7.3
sbin/start-yarn.sh

查看java进程来确定hadoop是否启动成功

jps
看主节点是否会出现 namenode,secondarynamenode
看从节点是否会出现datanode
出现代表,hdfs启动成功,否则,表示失败,返回日志查看原因

less logs/hadoop-hadoop-namenode-master.log    查看namenode-master日志信
将本地文件上传到hdfs中

cd ~/data
hdfs dfs -put *.txt /        将data目录下的所有.txt文件上传至hdfs的根目录下
开启集群资源管理

sbin/start-yarn.sh
调用mapreduce的jar包进行运算

cd /mysoftware/hadoop-2.7.3/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /*.txt /out    统计单词数量
hdfs dfs -cat /out/*       查看结果

【关闭hadoop】

cd /mysoftware/hadoop-2.7.3
sbin/stop-yarn.sh      关闭集群资源管理
sbin/stop-dfs.sh       关闭hdfs分布式文件系统

【关闭虚拟机】
sudo shutdown -h now


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
搭建CDH(Cloudera Distribution including Apache Hadoop)的Hadoop分布式集群,您可以按照以下步骤进行操作: 1. 硬件准备:选择适合您需求的硬件,包括Master节点和Worker节点。Master节点通常包含NameNode、ResourceManager和其他管理组件,而Worker节点包含DataNode和NodeManager。 2. 操作系统准备:确保所有节点都安装了支持CDH的操作系统,如CentOS、Red Hat Enterprise Linux等,并进行必要的系统配置。 3. 安装CDH:下载CDH的安装包,根据官方文档的指引进行安装。您可以选择使用Cloudera Manager进行自动化安装,或者手动安装CDH的各个组件。 4. 配置集群:使用Cloudera Manager或手动配置各个组件的配置文件,包括HDFS、YARN、Hive、HBase等。确保配置正确,并进行必要的优化和调整。 5. 启动集群:启动各个组件,确保它们能够正常启动并工作。 6. 集群测试:使用CDH提供的工具和命令行工具,如hdfs dfs命令、yarn命令等,对集群进行测试和验证。确保Hadoop集群能够正确运行和处理任务。 7. 高可用和容错:根据需求,配置Hadoop的高可用和容错功能,如配置多个NameNode实现HDFS的冗余和故障转移,配置ResourceManager的容错等。 8. 安全配置:根据需求,配置Hadoop的安全功能,如Kerberos认证、SSL加密等,以保护集群的安全性。 以上是搭建CDH Hadoop分布式集群的一般步骤,具体操作细节可以参考Cloudera官方文档或其他相关资源。请注意,这只是一个概述,实际操作可能会有所不同,具体取决于您的环境和需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值