基于大数据分析系统Hadoop的13个开源工具

最新推荐文章于 2024-07-09 16:57:21 发布

程序猿广坤

最新推荐文章于 2024-07-09 16:57:21 发布

阅读量808

点赞数

分类专栏：编程语言大数据 it资讯人工智能文章标签：大数据程序员编程语言

本文链接：https://blog.csdn.net/bigagag/article/details/90139511

版权

Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构，最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。用户可以在不了解分布式底层细节的情况下，轻松地在Hadoop上开发和运行处理海量数据的应用程序。低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统，然而其赖以生存的HDFS和MapReduce组件却让其一度陷入困境——批处理的工作方式让其只适用于离线数据处理，在要求实时性的场景下毫无用武之地。因此，各种基于Hadoop的工具应运而生，本次为大家分享Hadoop生态系统中最常用的13个开源工具，其中包括资源调度、流计算及各种业务针对应用场景。首先，我们看资源管理相关。

资源统一管理/调度系统

在公司和机构中，服务器往往会因为业务逻辑被拆分为多个集群，基于数据密集型的处理框架也是不断涌现，比如支持离线处理的MapReduce、支持在线处理的Storm及Impala、支持迭代计算的Spark及流处理框架S4，它们诞生于不同的实验室，并各有所长。为了减少管理成本，提升资源的利用率，一个共同的想法产生——让这些框架运行在同一个集群上;因此，就有了当下众多的资源统一管理/调度系统，比如Google的Borg、Apache的YARN、Twitter的Mesos(已贡献给Apache基金会)、腾讯搜搜的Torca、FacebookCorona(开源)，本次为大家重点介绍ApacheMesos及YARN：

1、ApacheMesos

代码托管地址：ApacheSVN

Mesos提供了高效、跨分布式应用程序和框架的资源隔离和共享，支持Hadoop、MPI、Hypertable、Spark等。

Mesos是Apache孵化器中的一个开源项目，使用ZooKeeper实现容错复制，

最低0.47元/天解锁文章

程序猿广坤

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于大数据分析系统Hadoop的13个开源工具

Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构，最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来。用户可以在不了解分布式底层细节的情况下，轻松地在Hadoop上开发和运行处理海量数据的应用程序。低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统，然而其赖以生存的HDFS和MapReduce组件却让...
复制链接

扫一扫