搭建Hadoop环境

最新推荐文章于 2024-09-30 22:24:45 发布

m0_51919640

最新推荐文章于 2024-09-30 22:24:45 发布

阅读量620

点赞数

文章标签： hadoop mapreduce 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51919640/article/details/128269116

版权

安装Linux系统

按步骤安装好虚拟机后，通过ifconfig命令却无法正常获取ip地址,因为CentOS6的特性:网卡默认不开启

1.手动启动网卡:ifup eth0

2.永久开启网卡

（1）编辑文件:vim /etc/sysconfig/network-scripts/ifcfg-eth0

（2）将ONBOOT的值修改为yes

配置静态IP：输入命令:setup

Hadoop概述

1.Hadoop是Apache提供的一个开源、可靠的、可扩展的的系统架构,可以利用分布式架构来进行海量数据的存储以及计算

2.需要注意的是Hadoop处理的数据是离线的,即在数据已知以及不要求时效性的场景中使用

3.Hadoop历史版本:

Hadoop1.0 --- 只包含Common、HDFS以及MapReduce两个模块

Hadoop2.0 --- 完全不同于1.0的架构,包含Common、HDFS、MapReduce以及Yarn三个模块（常用）

Hadoop3.0 --- 包含Common、HDFS、MapReduce、Yarn、Ozone、Submarine五个模块

4.模块介绍:

（1）HDFS:Hadoop Distributed File System(Hadoop分布式文件系统),作用:用于分布式场景下数据的存储

（2）MapReduce:分布式计算框架,作用:用于分布式场景下数据的计算

（3）Yarn:Hadoop2.0版本中出现的,用于进行资源管理和任务调度的框架

（4）Ozone:基于HDFS进行对象的存储

5.Hadoop的搭建方式

（1）单机模式:只能提供部分功能.大部分功能无法使用

（2）伪分布式:利用一个节点(服务器)模拟分布式集群环境

（3）完全分布式:利用多个节点来搭建出来的真实环境(实际生产场景中的环境)

Hadoop伪分布式

1.关闭防火墙:

（1）临时关闭:service iptables stop

（2）永久关闭:chkconfig iptables off

2.配置主机名称:需要注意的是Hadoop的集群主机名称不能有空格或者_,如果存在则会导致Hadoop集群无法找到该节点从而无法启动

（1）编辑network文件:vim /etc/sysconfig/network

（2）将HOSTNAME属性修改为指定的主机名称:HOSTNAME=hadoop01

3.配置hosts文件,将主机名称与ip地址进行映射

（1）编辑network文件:vim /etc/hosts

（2）将主机名称与IP进行映射:192.168.112.131 hadoop01

4.进行SSH免密互通

（1）生成自己的公钥和秘钥,生成的公钥以及秘钥都会存储在/root/.ssh/目录下:ssh-keygen

（2）把生成的公钥注册到远程的机器上:ssh-copy-id root@192.168.112.131

5.重启Linux系统用于配置生效:reboot

6.解压Hadoop安装包之后进入Hadoop的etc/hadoop子目录

（1）编辑hadoop-env.sh

①修改JAVA_HOME的路径:export JAVA_HOME=/home/software/jdk1.8/

②设置HADOOP_CONF_DIR的配置文件所处路径:

export HADOOP_CONF_DIR=/home/software/hadoop-2.7.6/etc/hadoop/

配置core-site.xml

添加配置

<property>

<name>fs.defaultFS</name>

<value>hdfs://hadoop01:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/software/hadoop-2.7.6/tmp</value>

</property>

（3）配置hdfs-site.xml

添加配置:

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

（4）编辑mapred-site.xml:

①将模板文件复制一份并且重命名:cp mapred-site.xml.template mapred-site.xml

②添加配置:

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

（5）编辑yarn-site.xml

添加配置:

<property>

<name>yarn.resourcemanager.hostname</name>

<value>hadoop01</value>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

（6）编辑slaves文件:

①添加从节点信息:hadoop01

7.配置Hadoop的环境变量:

（1）编辑profile文件:

HADOOP_HOME=/home/software/hadoop-2.7.6/

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:

HADOOP_HOME/sbin

8.格式化NameNode:hadoop namenode -format

9.启动Hadoop:start-all.sh

Hadoop的技术细节

HDFS的技术细节

（1）HDFS的全称:Hadoop Distributed File System(Hadoop分布式文件系统)

（2）HDFS是Hadoop提供的一套用于进行分布式存储的文件系统

（3）HDFS为了方便操作仿照Linux系统设计的一套文件系统

（4）HDFS的基本结构是典型的主从结构:NameNode主节点和DataNode从节点

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。