大数据生态系统的认识

最新推荐文章于 2024-08-05 17:46:13 发布

ljy0413

最新推荐文章于 2024-08-05 17:46:13 发布

阅读量1.7k

点赞数 1

分类专栏：笔记

本文链接：https://blog.csdn.net/ljy0413/article/details/109598289

版权

本文介绍了Hadoop作为大数据生态系统的基石，包括其组件如HDFS、MapReduce、HBase、Zookeeper等，以及相关工具如Ambari、YARN等。Hadoop提供分布式存储和计算能力，而Ambari则简化了Hadoop集群的管理和监控。此外，文章还提到了其他大数据组件如Hive、Pig、Shark等，展示了Hadoop在大数据处理中的广泛应用。

摘要由CSDN通过智能技术生成

标题大数据生态系统

加粗样式一.认识Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），其中一个组件是HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。
Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成如图

在这里插入图片描述

Ambari（安装部署工具）
Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。
Apache Ambari 支持HDFS、Map