3.2 Hadoop简介

最新推荐文章于 2024-07-28 16:45:11 发布

数据小小兜

最新推荐文章于 2024-07-28 16:45:11 发布

阅读量2.5k

点赞数 1

文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/cjjtree123/article/details/124744355

版权

Hadoop是较早用来处理大数据集合的分布式存储计算基础架构，最早由Apache软件基金会开发。
Hadoop软件库是一个计算框架，在这个框架下，可以使用一种简单的编程模式，通过多台计算机构成的集群，分布式处理大数据集。
Hadoop被设计成可扩展的，它可以方便地从单一服务器扩展到数千台机器，每台机器进行本地计算和存储。

3.2.1 Hadoop的构成
Hadoop包括以下四个基本模块：
● Hadoop基础功能库：支持其他Hadoop模块的通用程序包。
● HDFS：一个分布式文件系统，能够以高吞吐量访问应用的数据。
● YARN：一个作业调度和资源管理框架。
● MapReduce：一个基于YARN的大数据并行处理程序。

除了基本模块，Hadoop相关的其他项目还包括：
● Ambari：一个基于Web的工具，用于配置、管理和监控Hadoop集群。支持HDFS、MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari还提供显示集群健康状况的仪表盘，如热点图等。
Ambari以图形化的方式查看MapReduce、Pig和Hive应用程序的运行情况，因此可以通过对用户友好的方式诊断应用的性能问题。
● Avro：一个数据序列化系统。
● Cassandra：一个可扩展的无单点故障的NoSQL多主数据库。
● Chukwa：一个用于大型分布式系统的数据采集系统。
● HBase：一个可扩展的分布式数据库，支持大表的结构化数据存储。
● Hive：一个数据仓库基础架构，提供数据

最低0.47元/天解锁文章

数据小小兜

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
3.2 Hadoop简介

Hadoop是较早用来处理大数据集合的分布式存储计算基础架构，最早由Apache软件基金会开发。Hadoop软件库是一个计算框架，在这个框架下，可以使用一种简单的编程模式，通过多台计算机构成的集群，分布式处理大数据集。Hadoop被设计成可扩展的，它可以方便地从单一服务器扩展到数千台机器，每台机器进行本地计算和存储。3.2.1 Hadoop的构成Hadoop包括以下四个基本模块：● Hadoop基础功能库：支持其他Hadoop模块的通用程序包。● HDFS：一个分布式文件系统，能够以高吞吐量访
复制链接

扫一扫