Hadoop集群搭建

db_lhs_2073

已于 2023-06-26 22:13:50 修改

阅读量110

点赞数

文章标签： hadoop 大数据 hbase

于 2023-06-26 21:12:03 首次发布

本文链接：https://blog.csdn.net/hs_96/article/details/131365343

版权

前言

本片博客是为完成Hadoop老师布置的作业而写的，写的不好请各位看官勿喷，因为本人自己也是小白。

学习目标

了解Hadoop，虚拟机配置，完成Hadoop伪分布式部署。

一、Hadoop

1、Hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS（Hadoop Distributed File System）。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

2、Hadoop的特点

（1）高可靠性

在处理数据时，Hadoop往往会将数据备份多份分发至不同的机器进行保存，这样就避免了在处理数据时，机器宕机导致数据丢失的麻烦，保证了数据的安全性、可靠性。

（2）高扩展性

在处理数据时，如果当前集群的资源（比如存储能力和运算能力）不足以完成数据处理和分析任务，可以通过快速扩充集群规模进行扩容和加强集群的运算能力。

（3）高效性

Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快；相比传统的单台机器处理数据，效率是极高的。

（4）高容错性

Hadoop能自动保存数据的多个副本，当某个节点宕机时，它可以自动的将副本复制给其他机器，保证数据的完整性，并且可以将失败的任务重新分发。

（5）低成本

Hadoop集群可以将程序运行在廉价的机器上并发的进行处理，成本低、效率高，是处理海量数据的最佳选择；与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。

3、Hadoop的组件

（1）HDFS：Hadoop Distribute File System，分布式文件系统，用于存储海量数据。
（2）MapReduce：Hadoop的分布式运算框架。
（3）Yarn：分布式资源调度和任务监控和分配的平台。
（4）commons：Hadoop底层的技术支持。

4、核心架构

Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System（HDFS），它存储 Hadoop 集群中所有存储节点上的文件。HDFS的上一层是MapReduce 引擎，该引擎由 JobTrackers 和 TaskTrackers 组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍，基本涵盖了Hadoop分布式平台的所有技术核心。