Linux-7.2下搭建最新Hadoop-3.0单机环境

最新推荐文章于 2024-07-26 18:24:46 发布

Hello_World_QWP

最新推荐文章于 2024-07-26 18:24:46 发布

阅读量443

点赞数 1

分类专栏： Hadoop_Linux 文章标签： hadoop mapreduce hadoop hdfs hbase

本文链接：https://blog.csdn.net/Hello_World_QWP/article/details/79650691

版权

Hadoop_Linux 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

《 Linux-7.2下构建最新Hadoop-3.0单机环境》

前言：
在这儿我们先从搭建一个 Hadoop 的单机环境开始，这样会对 Hadoop 有个大致的了解后，再去看其相关概念就比较好理解写了，关于相关的概念在文章末尾进行查看（来至 Apache 官网）。

系统环境要求：
Apache Hadoop-3.0.0与以前发布版本的 hadoop-2.x 相比，具有许多重要的增强功能。

JDK 要求：
Hadoop JAR 现在都是针对 Java 8 的运行时版本编译的。如果你现在还在使用 Java 7 或更低版本则必须升级到Java 8或以上。

构建 Hadoop 单机环境
1）、系统环境
Linux 版本： CentOS-7.2
JDK 版本： JDK-1.8
Hadoop 版本： Apache Hadoop-3.0.0

2）、JDK 安装《 Linux下Jdk1.8的安装与环境变量配置教程》
http://blog.csdn.net/hello_world_qwp/article/details/78861247

3）、下载 Apache Hadoop 《最新Apache Hadoop-3.0.0 百度云下载》

4）、下载完成后上传到 Linux 服务器，并输入命令 “ tar -zxf hadoop-3.0.0.tar.gz ” 解压完成后，如下图：

5）、为了便于管理，将 hadoop 复制到指定目录，输入命令 “ cp hadoop-3.0.0 /usr/local/hadoop_single -r ”

6）、在默认情况下，Hadoop 被配置为以非分布模式运行的，非分布式即单 Java 进程，方便进行调试。

创建 input 目录，输入命令 “ mkdir input ” ，将 hadoop 配置文件复制到 input 目录，输入命令 “ cp etc/hadoop/*.xml input ”，如下图：

现在可以启动 hadoop 自带的 Demo ，hadoop 自带Demo包括 aggregatewordcount、aggregatewordhist、bbp、dbcount、distbbp、grep 等，

可以输入命令 “ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0.jar ” 进行查看，如下图：

启动一个 grep Demo，一个基于聚合的 mapreduce 的程序，主要用于计算输入文件中的单词，
输入命令 “ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0.jar grep input output 'dfs[a-z.]+' ”
启动成功后，将筛选符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数，最后输出结果到 output 文件夹中，

输入命令 “ cat output/* ” 查看输出的内容，其中 dfsadmin 出现了1次，如下图：

关于 Apache Hadoop
Apache Hadoop 可靠的、可扩展的分布式计算开源的软件库。
Apache Hadoop 软件库是一个框架，它允许使用简单的编程模型跨计算机群集分布式处理大型数据集。
Apache Hadoop 的可扩展性是指从单个服务器扩展到数千台机器，每台机器提供本地计算和存储。Hadoop 本身不是依靠硬件来实现高可用性，其设计目的主要用于在应用层检测和处理故障，
从而在一组计算组成的集群中实现服务的高可用，因为集群中的每个计算机都可能出现故障或宕机导致该机停止提供服务。

Hadoop 下包括的模块
Common : 支持其他 Hadoop 模块的通用工具。
HDFS : 分布式文件系统，实现应用程序数据的高吞吐量。
YARN : 任务调度和集群资源管理的框架。
MapReduce : 用于并行处理大型数据集的基于YARN的系统。

Apache 基金会下与 Hadoop 相关的其他项目
HBase : 可扩展的分布式数据库，支持大型表格的结构化数据存储。
Hive : 提供了数据汇总和即时查询的数据仓库基础架构。
Spark : 主要用于 Hadoop 数据快速和通用的计算引擎（和 MapReduce有得一拼）。同时 Spark 也支持广泛的应用程序，其中包括ETL，机器学习，流处理和图像计算。
Zookeeper : 分布式应用程序的高性能协调服务。
Avro : 数据序列化系统。
Cassandra : 无单点故障的可扩展多主数据库。
Chukwa : 管理大型分布式系统的数据收集系统。
Ambari : 主要用于供应、管理和监控 Apache Hadoop 集群的Web的工具，该工具还对 Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop的友好支持，
Ambari提供了状态列表用于监控集群的运行情况，及以更友好的方式诊断系统性能的功能。
Mahout : 可扩展的机器学习和数据挖掘库。
Pig : 实现并行计算的高级过程语言和执行框架。通过允许对分布式数据集进行类似 SQL 的查询，Pig 可以简化 Hadoop 的使用。
Tez : 基于Hadoop YARN的通用数据流编程框架，它提供了一个强大且灵活的引擎，可执行任意DAG任务来处理批处理和交互式用例的数据。
下一篇《 Linux-7.2下构建最新Hadoop-3.0伪分布式环境》

好了，关于构建最新Hadoop-3.0单机环境就写完了，如果还有什么疑问或遇到什么问题，可以给我留言。
歇后语：“共同学习，共同进步”，也希望大家多多关注CSND的IT社区。
关于 Hadoop-3.0 的一些增强功能和优化请参考 Apache 官网： http://hadoop.apache.org/docs/current/