Hadoop初识、架构探讨

最新推荐文章于 2022-07-12 18:26:44 发布

VIP文章 xjfy.h

最新推荐文章于 2022-07-12 18:26:44 发布

阅读量2.1k

点赞数

分类专栏：【笔记】BigData校内培训-Hadoop模块及组件

本文链接：https://blog.csdn.net/weixin_42526141/article/details/82892754

版权

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构

Hadoop 底层用Java语言、跨平台性，可以部署在廉价的计算机集群中。

Hadoop在分布式环境下提供了海量数据的处理能力

几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务，如谷歌、雅虎、微软、思科、淘宝等，都支持Hadoop。

Hadoop组成：

Hadoop是一个能够对大量数据进行分布式处理的软件框架，并且是以一种可靠、高效、可伸缩的方式进行处理的，它具有以下几个方面的特性：

Hadoop的项目结构不断丰富发展，已经形成一个丰富的Hadoop生态系统。

Hadoop1 生态系统架构

Hadoop2 生态系统架构

HDFS:构建于廉价计算机集群之上的分布式文件系统，低成本、高可靠性、高吞吐量
MapReduce:分布式编程模型和软件框架，用于在集群上编写对海量数据处理的并行化程序
Common:整体架构提供基础支撑性功能，主要包括了文件系统、RPC和数据串行化库
Hive:数据仓库工具，将结构化数据文件映射为库表，并提供强大的类SQL查询功能
Hbase:分布式的、面向列的数据库，是一个适合于非结构化海量数据存储的数据库
Pig:适合海量数据分析的脚本语言工具，包括了一个数据分析语言和支持的运行环境
Sqoop:在Hadoop与传统数据库间进行数据交换的工具，支持两者之间的数据导入和导出
Zookeeper:维护Hadoop集群的配置和命名信息，并提供分布式锁同步功能和群组管理功能
Ambari:安装、管理和监控Hadoop集群的Web界面工具。目前已支持大部分组件的管理,就 Ambari 的作用来说，就是创建、管理、监视 Hadoop 的集群

关注

专栏目录