搭建Hadoop环境

  • 安装Linux系统

按步骤安装好虚拟机后,通过ifconfig命令却无法正常获取ip地址,因为CentOS6的特性:网卡默认不开启

1.手动启动网卡:ifup eth0

2.永久开启网卡

(1)编辑文件:vim /etc/sysconfig/network-scripts/ifcfg-eth0

(2)将ONBOOT的值修改为yes

配置静态IP:输入命令:setup

  • Hadoop概述

1.Hadoop是Apache提供的一个开源、可靠的、可扩展的的系统架构,可以利用分布式架构来进行海量数据的存储以及计算

2.需要注意的是Hadoop处理的数据是离线的,即在数据已知以及不要求时效性的场景中使用

3.Hadoop历史版本:

Hadoop1.0 --- 只包含Common、HDFS以及MapReduce两个模块

Hadoop2.0 --- 完全不同于1.0的架构,包含Common、HDFS、MapReduce以及Yarn三个模块(常用)

Hadoop3.0 --- 包含Common、HDFS、MapReduce、Yarn、Ozone、Submarine五个模块

4.模块介绍:

(1)HDFS:Hadoop Distributed File System(Hadoop分布式文件系统),作用:用于分布式场景下数据的存储

(2)MapReduce:分布式计算框架,作用:用于分布式场景下数据的计算

(3)Yarn:Hadoop2.0版本中出现的,用于进行资源管理和任务调度的框架

(4)Ozone:基于HDFS进行对象的存储

5.Hadoop的搭建方式

(1)单机模式:只能提供部分功能.大部分功能无法使用

(2)伪分布式:利用一个节点(服务器)模拟分布式集群环境

(3)完全分布式:利用多个节点来搭建出来的真实环境(实际生产场景中的环境)

  • Hadoop伪分布式

1.关闭防火墙:

(1)临时关闭:service iptables stop

(2)永久关闭:chkconfig iptables off

2.配置主机名称:需要注意的是Hadoop的集群主机名称不能有空格或者_,如果存在则会导致Hadoop集群无法找到该节点从而无法启动

(1)编辑network文件:vim /etc/sysconfig/network

(2)将HOSTNAME属性修改为指定的主机名称:HOSTNAME=hadoop01

3.配置hosts文件,将主机名称与ip地址进行映射

(1)编辑network文件:vim /etc/hosts

(2)将主机名称与IP进行映射:192.168.112.131 hadoop01

4.进行SSH免密互通

(1)生成自己的公钥和秘钥,生成的公钥以及秘钥都会存储在/root/.ssh/目录下:ssh-keygen

(2)把生成的公钥注册到远程的机器上:ssh-copy-id root@192.168.112.131

5.重启Linux系统用于配置生效:reboot

6.解压Hadoop安装包之后进入Hadoop的etc/hadoop子目录

(1)编辑hadoop-env.sh

①修改JAVA_HOME的路径:export JAVA_HOME=/home/software/jdk1.8/

②设置HADOOP_CONF_DIR的配置文件所处路径:

export HADOOP_CONF_DIR=/home/software/hadoop-2.7.6/etc/hadoop/

  1. 配置core-site.xml

添加配置

<!-- 指定HDFS的主节点 -->

<property>

<name>fs.defaultFS</name>

<value>hdfs://hadoop01:9000</value>

</property>

<!-- 执行Hadoop运行时数据存储目录 -->

<property>

<name>hadoop.tmp.dir</name>

<value>/home/software/hadoop-2.7.6/tmp</value>

</property>

(3)配置hdfs-site.xml

添加配置:

<property>

<!-- 设置HDFS的副本数量 -->

<!-- 在伪分布式的场景中副本数量只能为1 -->

<name>dfs.replication</name>

<value>1</value>

</property>

(4)编辑mapred-site.xml:

①将模板文件复制一份并且重命名:cp mapred-site.xml.template mapred-site.xml

②添加配置:

<!-- 指定将MapReduce在Yarn上运行 -->

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

(5)编辑yarn-site.xml

添加配置:

<!-- 指定Yarn的主节点 -->

<property>

<name>yarn.resourcemanager.hostname</name>

<value>hadoop01</value>

</property>

<!-- NodeManager的数据获取方式为Shuffle -->

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

(6)编辑slaves文件:

①添加从节点信息:hadoop01

7.配置Hadoop的环境变量:

(1)编辑profile文件:

HADOOP_HOME=/home/software/hadoop-2.7.6/

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:

HADOOP_HOME/sbin

8.格式化NameNode:hadoop namenode -format

9.启动Hadoop:start-all.sh

  • Hadoop的技术细节
  1. HDFS的技术细节

(1)HDFS的全称:Hadoop Distributed File System(Hadoop分布式文件系统)

(2)HDFS是Hadoop提供的一套用于进行分布式存储的文件系统

(3)HDFS为了方便操作仿照Linux系统设计的一套文件系统

(4)HDFS的基本结构是典型的主从结构:NameNode主节点和DataNode从节点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值