带有Apache Spark的Lambda架构

最新推荐文章于 2024-07-18 06:26:29 发布

Myhoooyo

最新推荐文章于 2024-07-18 06:26:29 发布

阅读量5.2k

点赞数

分类专栏：大数据大数据技术互联网资讯大数据应用程序人生文章标签：大数据数据分析程序员编程

本文链接：https://blog.csdn.net/myhoooyo/article/details/89750872

版权

本文探讨了Lambda架构，旨在通过批处理和流处理加速数据分析。以Apache Spark为例，介绍了如何利用Spark Core、SQL和Streaming处理实时数据，同时结合Twitter Stream展示了Lambda架构的应用。文章还讨论了Lambda架构的权衡以及其实现方法。

摘要由CSDN通过智能技术生成

目标
市场上的许多玩家已经建立了成功的MapReduce工作流程来每天处理以TB计的历史数据。但是谁愿意等待24小时才能获得最新的分析结果？这篇博文将向您介绍旨在利用批处理和流处理方法的Lambda架构。我们将利用Apache Spark（Core，SQL，Streaming），Apache Parquet，Twitter Stream等实时流数据快速访问历史数据。还包括清晰的代码和直观的演示！

Apache Hadoop：简史
Apache Hadoop的丰富历史始于2002年。Hadoop由Doug Cutting创建，Doug Cutting是Apache Lucene（一个被广泛使用的文本搜索库）的创建者。Hadoop起源于Apache Nutch，一个开源的网络搜索引擎，它本身就是Lucene项目的一部分。它在10年前成为一个独立的项目。

因此，大量客户实施了有效的基于Hadoop的M/R处理管道。现实生活中有一些很好的例子：

Oozie编排的工作流程每天运行并处理高达150 TB的数据以生成分析结果
bash管理的工作流程每天运行并处理高达8 TB的数据以生成分析结果
现在是2016年！
商业现实已经发生了变化，所以现在更快做出的决定更有价值。除此之外，技术也在不断发展。Kafka，Storm，Trident，Samza，Spark，Flink，Parquet，Avro，Cloud providers等都是工程师和企业广泛采用的流行语。

因此，现代基于Hadoop的M/R管道（使用Kafka，Avro和数据仓库等现代二进制格式，即Amazon Redshift，用于临时查询）可能采用以下方式：