Flink 作为现代数据仓库的统一引擎：Hive 集成生产就绪！

最新推荐文章于 2022-11-05 23:02:12 发布

程序员学习圈

最新推荐文章于 2022-11-05 23:02:12 发布

阅读量305

点赞数 1

分类专栏： # Flink 文章标签： flink

原文链接：https://blog.csdn.net/luomingkui1109/category_8621548.html

版权

Flink 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

在2020年，你的数据仓库和基础设施需要满足哪些需求？

我们总结了几下几点：

首先，当下的企业正快速转向更实时化的模式，这要求企业具备对线上流式数据进行低延迟处理的能力，以满足实时（real-time）或近实时（near-real-time）的数据分析需求。人们对从数据产生到数据可用之间延迟的容忍度越来越低。曾经几个小时甚至几天的延误不再被接受。用户期待的是几分钟甚至几秒钟的数据端到端体验。

第二，数据基础设施需要具备同时处理线上和线下数据的能力，两种模式在实际应用中都不可或缺。除了上面提到的流处理，用户也需要批处理做即席查询（ad-hoc query）和数据挖掘。数据基础设施不应该要求用户二选一，而应该提供两个选项并且都是高质量的。

第三，数据工程师、数据科学家、分析师和运维人员都在渴望一套统一的数据技术栈，以便更轻松的使用。大数据领域的技术栈已经支离破碎很多年了，企业可能有一套流处理系统，一套批处理系统，一套线上数据分析系统。这基本都是由于当年流处理框架不够成熟而被迫采用过时的 lambda 架构造成的问题。现在不同了，流处理已成为主流，终端用户不必再学习多种技能和维护各种复杂的工具和数据处理管道（data pipeline）。用户渴望的是一套统一的简单易学易维护的方案。

如果你对以上问题深有同感，那说明这篇文章很适合你。我们来看看如何真正解决这个问题。

接下来我将带各位了解下 Flink 与 Hive 生产级别的整合工作。

1.Flink 与 Hive 生产级整合

Flink 一直遵循“ 流优先，批是流的一个特例”的思想理念。在这一思想的指导下，Flink 将最先进的流式处理技术运用到批处理中，使得 Flink 的批处理能力一早就令人印象深刻。特别是在 Flink 1.10 中我们基本完成了从1.9开始的对 Blink planner 的整合工作后，Flink SQL 的批处理能力更上一层楼。

Hive 在大数据生态中已成为标准的数据仓库组件。它不仅仅是一个 SQL 引擎，也是一个数据管理系统。但由于自身的局限，Hive 在当下面临很大的挑战，也无法满足的用户需求。

基于此，我们从 Flink 1.9 推出了 Flink 和 Hive 整合的 beta 版本。在过去几个月中，我们基于用户的反馈，在各个方面都对产品进行了加强。我很高兴的宣布，Flink 和 Hive 的整合在 Flink 1.10 版本中能实现生产可用！

下面来为大家介绍一些细节。

1.1 统一的元数据管理

Hive Metastore 已逐渐成为 Hadoop 生态中元数据管理的中枢。很多公司都用 Hive Metastore 管理他们的 Hive 甚至非 Hive 的元数据。

Flink 1.9 中我们推出了 Flink 的 HiveCatalog，将 Flink 对接 Hive Metastore 中丰富的元数据。HiveCatalog 有两层作用。