Hadoop的介绍与安装

最新推荐文章于 2024-08-07 16:32:24 发布

Sumamia_Q

最新推荐文章于 2024-08-07 16:32:24 发布

阅读量252

点赞数

文章标签： hadoop

本文链接：https://blog.csdn.net/Sumamia_Q/article/details/106182939

版权

本实验介绍了Apache Hadoop，一个用于分布式处理大数据的框架。Hadoop生态系统包括HDFS、MapReduce、HBase、Zookeeper等组件。重点讲解了Hadoop1.0的伪分布安装，包括配置本地环境、关闭防火墙、安装JDK、更新OpenSSL、SSH无密码验证以及Hadoop环境的详细配置步骤。

摘要由CSDN通过智能技术生成

Hadoop的介绍与安装

实验介绍

本节实验将对 Apache Hadoop 进行介绍。

知识点

Hadoop 生态系统
Hadoop 环境搭建

Hadoop 介绍

Apache Hadoop 软件库是一个框架，允许在集群服务器上使用简单的编程模型对大数据集进行分布式处理。Hadoop 被设计成能够从单台服务器扩展到数以千计的服务器，每台服务器都有本地的计算和存储资源。Hadoop 的高可用性并不依赖硬件，其代码库自身就能在应用层侦测并处理硬件故障，因此能基于服务器集群提供高可用性的服务。

Hadoop 生态系统

经过多年的发展形成了 Hadoop1.X 生态系统，其结构如下图所示：
在这里插入图片描述
HDFS： Hadoop 生态圈的基本组成部分是 Hadoop 分布式文件系统（HDFS）。HDFS 是一种分布式文件系统，数据被保存在计算机集群上，HDFS 为 HBase 等工具提供了基础。
MapReduce：Hadoop 的主要执行框架是 MapReduce，它是一个分布式、并行处理的编程模型，MapReduce 把任务分为 map（映射）阶段和 reduce（化简）阶段。由于 MapReduce 工作原理的特性，Hadoop 能以并行的方式访问数据，从而实现快速访问数据。
Hbase： HBase 是一个建立在 HDFS 之上，面向列的 NoSQL 数据库，用于快速读 / 写大量数据，HBase 使用 Zookeeper 进行管理。
Zookeeper： 用于 Hadoop 的分布式协调服务。Hadoop 的许多组件依赖于 Zookeeper，它运行在计算机集群中，用于管理 Hadoop 集群。
Pig： 它是 MapReduce 编程的复杂性的抽象。Pig 平台包括运行环境和用于分析 Hadoop 数据集的脚本语言 (Pig Latin)，其编译器将 Pig Latin 翻译成 MapReduce 程序序列。
Hive： 类似于 SQL 高级语言，用于运行存储在 Hadoop 上的查询语句，Hive 让不熟悉 MapReduce 的开发人员也能编写数据查询语句，然后这些语句被翻译为 Hadoop 上面的 MapReduce 任务。像 Pig 一样，Hive 作为一个抽象层工具，吸引了很多熟悉 SQL 而不是 Java 编程的数据分析师。
Sqoop： 一个连接工具，用于在关系数据库、数据仓库和 Hadoop 之间转移数据。Sqoop 利用数据库技术描述架构，进行数据的导入 / 导出；利用 MapReduce 实现并行化运行和容错技术。
Flume： 提供了分布式、可靠、高效的服务，用于收集、汇总大数据，并将单台计算机的大量数据转移到 HDFS。它基于一个简单而灵活的架构，利用简单的可扩展的数据模型，将企业中多台计算机上的数据转移到 Hadoop 中。

Apache 版本衍化

Apache Hadoop 版本分为两代，我们将第一代 Hadoop 称为 Hadoop 1.0，第二代 Hadoop 称为 Hadoop 2.0。

第一代 Hadoop 包含三个大版本，分别是 0.20.x，0.21.x 和 0.22.x。其中，0.20.x 最后演化成 1.0.x，变成了稳定版，而 0.21.x 和 0.22.x 则包括 NameNode HA 等新的重大特性。

第二代 Hadoop 包含两个版本，分别是 0.23.x 和 2.x，它们完全不同于 Hadoop 1.0，是一套全新的架构，均包含 HDFS Federation 和 YARN 两个系统，相比于 0.23.x，2.x 增加了 NameNode HA 和 Wire-compatibility 两个重大特性。

Hadoop1.X 伪分布安装

Hadoop 安装有如下三种方式：

单机模式： 安装简单，几乎不用做任何配置，但仅限于调试用途。
伪分布模式： 在单节点上同时启动 NameNode、DataNode、JobTracker、TaskTracker、Secondary Namenode 等 5 个进程，模拟分布式运行的各个节点。
完全分布式模式： 正常的 Hadoop 集群，由多个各司其职的节点构成。
由于实验环境的限制，本节课程将讲解伪分布模式安装，并在随后的课程中以该环境为基础进行其他组件部署实验。以下为伪分布式环境下在 CentOS6 中配置 Hadoop-1.1.2，该配置可以作为其他 Linux 系统和其他版本的 Hadoop 部署参考。

软硬件环境说明

Hadoop 搭建环境：
虚拟机操作系统： CentOS6.6 64 位，单核，1G 内存
JDK： 1.7.0_55 64 位
Hadoop： 1.1.2

环境搭建

配置本地环境
设置机器名
使用 sudo vi /etc/sysconfig/network。
打开配置文件，根据实际情况设置该服务器的机器名，新机器名在重启后生效。
设置 Host 映射文件
1.设置 IP 地址与机器名的映射，设置信息如下：

# 配置主机名对应的IP地址
$ sudo vi /etc/hosts

设置：<IP 地址> <主机名>

例如： 192.168.42.2 55a95997af1c hadoop

注意：就是在打开的 /etc/hosts 文件的最后一行加上 hadoop，记得使用的是 tab 键而不是空格
在这里插入图片描述
2.使用 ping 命令验证设置是否成功。

ping hadoop

在这里插入图片描述
设置操作系统环境
关闭防火墙
在 Hadoop 安装过程中需要关闭防火墙和 SElinux，否则会出现异常。
1.使用 sudo service iptables status。
查看防火墙状态，如下所示表示 iptables 已经开启。
（注意：若弹出权限不足，可能防火墙已经关闭，请输入命令：chkconfig iptables --list 查看防火墙的状态。）
2.使用如下命令关闭 iptables。
sudo chkconfig iptables off
在这里插入图片描述
关闭 SElinux
1.使用 getenforce 命令查看是否关闭。
2.修改 /etc/selinux/config 文件

最低0.47元/天解锁文章

Sumamia_Q

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop的介绍与安装

这里写自定义目录标题实验介绍知识点Hadoop 介绍Hadoop 生态系统如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入实验介绍本节实验将对 Apache Hadoop 进行介绍。知识点Hadoop 生态系统Hadoop 环境搭建Hadoop 介绍Apa
复制链接

扫一扫