flink读取不到文件_Flink 作为现代数据仓库的统一引擎：Hive 集成生产就绪

最新推荐文章于 2024-04-20 11:35:38 发布

weixin_39946429

最新推荐文章于 2024-04-20 11:35:38 发布

阅读量206

点赞数

文章标签： flink读取不到文件

本文链接：https://blog.csdn.net/weixin_39946429/article/details/111679724

版权

本文介绍了Flink与Hive的生产级整合，包括统一元数据管理、流处理、Hive版本兼容、复用Hive函数、增强读写Hive数据等功能，旨在满足实时化数据仓库需求。Flink 1.10版实现了对Hive的全面支持，提供了一套统一、高效的数据处理解决方案。

摘要由CSDN通过智能技术生成

在2020年，你的数据仓库和基础设施需要满足哪些需求？

我们总结了几下几点：

首先，当下的企业正快速转向更实时化的模式，这要求企业具备对线上流式数据进行低延迟处理的能力，以满足实时(real-time)或近实时(near-real-time)的数据分析需求。人们对从数据产生到数据可用之间延迟的容忍度越来越低。曾经几个小时甚至几天的延误不再被接受。用户期待的是几分钟甚至几秒钟的数据端到端体验。

第二，数据基础设施需要具备同时处理线上和线下数据的能力，两种模式在实际应用中都不可或缺。除了上面提到的流处理，用户也需要批处理做即席查询(ad-hoc query)和数据挖掘。数据基础设施不应该要求用户二选一，而应该提供两个选项并且都是高质量的。

第三，数据工程师、数据科学家、分析师和运维人员都在渴望一套统一的数据技术栈，以便更轻松的使用。大数据领域的技术栈已经支离破碎很多年了，企业可能有一套流处理系统，一套批处理系统，一套线上数据分析系统。这基本都是由于当年流处理框架不够成熟而被迫采用过时的 lambda 架构造成的问题。现在不同了，流处理已成为主流，终端用户不必再学习多种技能和维护各种复杂的工具和数据处理管道(data pipeline)。用户渴望的是一套统一的简单易学易维护的方案。

如果你对以上问题深有同感，那说明这篇文章很适合你。我们来看看如何真正解决这个问题。

接下来我将带各位了解下 Flink 与 Hive 生产级别的整合工作。