大数据框架

最新推荐文章于 2023-07-05 09:29:22 发布

cloudytechi1477

最新推荐文章于 2023-07-05 09:29:22 发布

阅读量1.6k

点赞数

文章标签： big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cloudytechi1477/article/details/121666173

版权

大数据是指通常每天都在不断增长的庞大数据集。例如，Facebook 的用户数量每天都在不断增长，每个用户的数据也随着他们浏览 Facebook 的增长而增长。

此类数据可以是结构化的，也可以是非结构化的。数据很大，因此在复杂性和速度上也更大，即它既快速又复杂。因此，大数据由 3V 标识，即体积、多样性和速度。

大数据帮助我们分析数据并对其进行各种操作，以优化成本和时间。当我们将这些大数据与强大的框架结合使用时，就可以更轻松地实时找到确切的（解决方案）问题或问题。

For English translation blog - Big Data Frameworks

顶级大数据框架

1. Hadoop

Hadoop是一个基于Java的开源大数据框架，提供批处理和数据存储服务。它有一个巨大的架构，由许多层组成，如用于数据处理的 HDFS 和 YARN。

2. Apache Spark

Spark 是一个批处理框架，具有增强的数据流处理。它促进了内存计算，使同样的超快。大数据框架与 Hadoop 集成，可以作为独立的集群工具。

3. MapReduce

MapReduce 是一个大数据搜索引擎，是 Hadoop 框架的一部分。最初，它只是一种并行处理大量数据的算法。现在，它不仅如此，还分 3 个阶段工作：

Map
Shuffle
Reduce

4. Apache Hive

Facebook 将 Apache Hive 设计为 ETL 和数据仓库工具。它建立在 Hadoop 生态系统的 HDFS 平台之上。 Hive 由 3 个组件组成，即客户端、服务和存储以及计算。

Apache Hive 有其用于查询的声明性语言，即 HiveQL，它非常适合数据密集型作业。 JP Morgan、Facebook、Accenture 和 PayPal 等公司都使用 Hive。

5. Flink

Flink 基于 Kappa 架构，是一个开源的单流处理引擎。它有一个处理器将输入视为流，流引擎实时处理数据。批处理是流式处理的一个特例。

6. Samza

通过 Samza，您可以构建可处理来自各种来源的实时数据的有状态应用程序。它旨在解决批处理延迟（大周转时间）问题。

7. Storm

Storm 处理巨大的实时数据流。它旨在处理低延迟并且具有高度可扩展性。 Storm 可以在停机后更快地恢复。它是 Twitter 的第一个大数据框架，之后也被雅虎、Yelp 和阿里巴巴等巨头采用。

8. Impala

在 C++ 和 Java 中，Impala 是一个开源的大规模并行处理查询引擎，可以在单个 Hadoop 集群中处理海量数据。

就像 Hive 有自己的查询语言一样，Impala 也有！它具有低延迟和高性能，并且在性能和可用性方面提供了接近 RDBMS 的体验。 Impala 就像两全其美：SQL 等查询语言的性能和支持以及 Hadoop 的灵活性和可扩展性。

结论

这完成了我们的 10 个最佳大数据框架列表。但是，还有许多其他值得一提的大数据框架我们没有在本文中介绍，但需要提及：

苍鹭，
苦杜，
打开精炼，
卡格尔，
Cloudera 和
五角星

cloudytechi1477

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。