【硬刚大数据】Flink在实时在实时计算平台和实时数仓中的企业级应用小结

最新推荐文章于 2024-07-24 16:31:12 发布

王知无(import_bigdata)

最新推荐文章于 2024-07-24 16:31:12 发布

阅读量1.3k

点赞数 4

文章标签： flink 面试 big data

原创文章禁止转载。否则追究法律后果。

本文链接：https://blog.csdn.net/u013411339/article/details/119979816

版权

欢迎关注博客主页：https://blog.csdn.net/u013411339
欢迎点赞、收藏、留言，欢迎留言交流！
本文由【王知无】原创，首发于 CSDN博客！
本文首发CSDN论坛，未经过官方和本人允许，严禁转载！

本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的面试部分补充。

大数据领域自 2010 年开始，以 Hadoop、Hive 为代表的离线计算开始进入各大公司的视野。大数据领域开始了如火如荼的发展。我个人在学校期间就开始关注大数据领域的技术迭代和更新，并且有幸在毕业后成为大数据领域的开发者。

在过去的这几年时间里，以 Storm、Spark、Flink 为代表的实时计算技术接踵而至。2019 年阿里巴巴内部 Flink 正式开源。整个实时计算领域风起云涌，一些普通的开发者因为业务需要或者个人兴趣开始接触Flink。

Apache Flink（以下简称 Flink）一改过去实时计算领域为人诟病的缺陷，以其强大的计算能力和先进的设计理念，迅速成为实时计算领域先进生产力的代表。各大小公司纷纷开始在 Flink 的应用上进行探索，其中最引人瞩目的两个方向便是：实时计算平台和实时数据仓库。

Flink 实时计算

如果你是一位大数据领域的开发人员或者你是一名后端的开发者，那么你对下面这些需求场景应该不会陌生：

我是抖音主播，我想看带货销售情况的排行？我是运营，我想看到我们公司销售商品的 TOP10？我是开发，我想看到我们公司所有生产环境中服务器的运行情况？......

在 Hadoop 时代，我们通常的做法是将数据批量存储到 HDFS 中，在用 Hive 产出离线的报表。或者我们使用类似 ClickHouse 或者 PostgreSQL 这样的数据库存储生产数据，用 SQL 直接进行汇总查看。

那么这样的方式有什么问题呢？

第一种，基于 Hive 的离线报表形式。大部分公司随着业务场景的不断丰富，同时在业界经过多年的实践检验，基于 Hadoop 的离线存储体系已经足够成熟。但是离线计算天然时效性不强，一般都是隔天级别的滞后，业务数据随着实践的推移，本身的价值就会逐渐减少。越来越多的场景需要使用实时计算，在这种背景下实时计算平台的需求应运而生。

第二种，基于 ClickHouse 或者 PostgreSQL 直接进行汇总查询。这种情况在一些小规模的公司使用非常常见，原因只有一个就是数据量不够大。在我们常用的具有 OLAP 特性的数据库的使用过程中，如果在一定的数据量下直接用复杂的 SQL 查询，一条复杂的 SQL 足以引起数据库的剧烈抖动，甚至直接宕机，对生产环境产生毁灭性的影响。这种查询在大公司是坚决不能进行的操作。

因此基于 Flink 强大实时计算能力消费实时数据的需求便应运而生。在实时数据平台中，Flink 会承担实时数据的采集、计算和发送到下游。

Flink 实时数据仓库

数据仓库最初是指的我们存储的 Hive 中的表的集合。按照业务需求一般会分为原始层、明细层、汇总层、业务层。各个公司根据实际业务需要会有更为细致的划分。

传统的离线数据仓库的做法一般是将数据按天离线集中存储后，按照固定的计算逻辑进行数据的清洗、转换和加载。最终在根据业务需求进行报表产出或者提供给其他的应用使用。我们很明显的可以看到，数据在这中间有了至少 T+1 天的延迟，数据的时效性大打折扣。

这时，实时数据仓库应运而生。一个典型的实时数据仓库架构图如下：