大数据Hadoop的13个开源工具

最新推荐文章于 2024-07-21 19:41:19 发布

996工作党

最新推荐文章于 2024-07-21 19:41:19 发布

阅读量1.3k

点赞数

分类专栏：大数据程序员编程语言 hadoop 文章标签：大数据程序员编程语言 hadoop

本文链接：https://blog.csdn.net/mmooyyyy/article/details/90551564

版权

本文介绍了Hadoop生态系统中的13个重要开源工具，包括资源管理如Apache Mesos和YARN，实时解决方案如Impala、Spark和Storm，以及其他解决方案如Shark、Phoenix等。这些工具旨在解决Hadoop在批处理和实时处理中的局限性，提高大数据处理的效率和灵活性。

摘要由CSDN通过智能技术生成

Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构，最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。

用户可以在不了解分布式底层细节的情况下，轻松地在Hadoop上开发和运行处理海量数据的应用程序。低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统，然而其赖以生存的HDFS和MapReduce组件却让其一度陷入困境——批处理的工作方式让其只适用于离线数据处理，在要求实时性的场景下毫无用武之地。

因此，各种基于Hadoop的工具应运而生，本次为大家分享Hadoop生态系统中最常用的13个开源工具，其中包括资源调度、流计算及各种业务针对应用场景。首先，我们看资源管理相关。

很多初学者，对大数据的概念都是模糊不清的，大数据是什么，能做什么，学的时候，该按照什么线路去学习，学完往哪方面发展，想深入了解，想学习的同学欢迎加入大数据学习qq群：458345782，有大量干货（零基础以及进阶的经典实战）分享给大家，并且有清华大学毕业的资深大数据讲师给大家免费授课，给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

资源统一管理/调度系统

在公司和机构中，服务器往往会因为业务逻辑被拆分为多个集群，基于数据密集型的处理框架也是不断涌现，比如支持离线处理的MapReduce、支持在线处理的Storm及Impala、支持迭代计算的Spark及流处理框架S4，它们诞生于不同的实验室，并各有所长。

为了减少管理成本，提升资源的利用率，一个共同的想法产生——让这些框架运行在同一个集群上;因此，就有了当下众多的资源统一管理/调度系统，本次为大家重点介绍ApacheMesos及YARN：

1、ApacheMesos

代码托管地址：ApacheSVN

Mesos提供了高效、跨分布式应用程序和框架的资源隔离和共享，支持Hadoop、MPI、Hypertable、Spark等。

Mesos是Apache孵化器中的一个开源项目，使用ZooKeeper实现容错复