大数据框架

大数据是指通常每天都在不断增长的庞大数据集。 例如,Facebook 的用户数量每天都在不断增长,每个用户的数据也随着他们浏览 Facebook 的增长而增长。

此类数据可以是结构化的,也可以是非结构化的。 数据很大,因此在复杂性和速度上也更大,即它既快速又复杂。 因此,大数据由 3V 标识,即体积、多样性和速度。

 

大数据帮助我们分析数据并对其进行各种操作,以优化成本和时间。 当我们将这些大数据与强大的框架结合使用时,就可以更轻松地实时找到确切的(解决方案)问题或问题。

For English translation blog - Big Data Frameworks

顶级大数据框架

1. Hadoop

Hadoop是一个基于Java的开源大数据框架,提供批处理和数据存储服务。 它有一个巨大的架构,由许多层组成,如用于数据处理的 HDFS 和 YARN。

2. Apache Spark

Spark 是一个批处理框架,具有增强的数据流处理。 它促进了内存计算,使同样的超快。 大数据框架与 Hadoop 集成,可以作为独立的集群工具。

3. MapReduce

MapReduce 是一个大数据搜索引擎,是 Hadoop 框架的一部分。 最初,它只是一种并行处理大量数据的算法。 现在,它不仅如此,还分 3 个阶段工作:

  • Map
  • Shuffle
  • Reduce

4. Apache Hive

Facebook 将 Apache Hive 设计为 ETL 和数据仓库工具。 它建立在 Hadoop 生态系统的 HDFS 平台之上。 Hive 由 3 个组件组成,即客户端、服务和存储以及计算。

Apache Hive 有其用于查询的声明性语言,即 HiveQL,它非常适合数据密集型作业。 JP Morgan、Facebook、Accenture 和 PayPal 等公司都使用 Hive。

5. Flink

Flink 基于 Kappa 架构,是一个开源的单流处理引擎。 它有一个处理器将输入视为流,流引擎实时处理数据。 批处理是流式处理的一个特例。

6. Samza

通过 Samza,您可以构建可处理来自各种来源的实时数据的有状态应用程序。 它旨在解决批处理延迟(大周转时间)问题。

7. Storm

Storm 处理巨大的实时数据流。 它旨在处理低延迟并且具有高度可扩展性。 Storm 可以在停机后更快地恢复。 它是 Twitter 的第一个大数据框架,之后也被雅虎、Yelp 和阿里巴巴等巨头采用。

8. Impala

在 C++ 和 Java 中,Impala 是一个开源的大规模并行处理查询引擎,可以在单个 Hadoop 集群中处理海量数据。

就像 Hive 有自己的查询语言一样,Impala 也有! 它具有低延迟和高性能,并且在性能和可用性方面提供了接近 RDBMS 的体验。 Impala 就像两全其美:SQL 等查询语言的性能和支持以及 Hadoop 的灵活性和可扩展性。

结论

这完成了我们的 10 个最佳大数据框架列表。 但是,还有许多其他值得一提的大数据框架我们没有在本文中介绍,但需要提及:

  • 苍鹭,
  • 苦杜,
  • 打开精炼,
  • 卡格尔,
  • Cloudera 和
  • 五角星
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值