hudi系列-借助hudi优化架构

矛始

已于 2022-10-27 18:04:00 修改

阅读量3.2k

点赞数 2

分类专栏： hudi系列文章标签：架构大数据 hudi flink

于 2022-10-27 17:55:28 首次发布

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/czmacd/article/details/127557608

版权

hudi系列专栏收录该内容

22 篇文章 34 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文讨论了数据分析平台的需求，分析了常见架构如Lambda架构的问题，提出了Hudi如何通过其特性解决这些问题，包括统一数据存储、支持更新、流式增量查询等，实现了分钟级别的实时数仓并简化了整体架构。

摘要由CSDN通过智能技术生成

1. 数据分析平台的需求

自从工作以来一直都是从事大数据相关的工作，现在回头想一下，虽然每个阶段都不是最先用上当时最新的技术，但还是跟随着它们“稳定”的步伐，也庆幸自己在不同的阶段能接触到不一样的技术面，从这些

不同的经历之中，我总结了业务需求对数据的处理能力主要有三种要求：

在线联机分析：很多公司在最初引入大数据相关技术就是为了BI方面的报表统计需求，所以支持sql语言、基于内存的即席查询是最适合的，从impala,presto,kylin,phonex等，到后来的clickhouse,doris,druid等，从纯计算发展成了计算存储一体。
离线批处理：对大批量数据的深层挖掘以及数据建模型中应用得比较多，目前比较常用的应该还是hive和spark
实时流处理：预警、实时推荐、风控等方面，从storm->spark streaming->flink，现在flink已经独步天下了，随着flink-cdc和connector的不断发展，flink用来做数据实时同步也越来越多了。

单论计算引擎，spark,flink三者都能提供以上三种能力，但是强弱各不同，spark本质是批处理，一直往流处理发展，从spark streaming到StructStreaming&#x

了解本专栏

超级会员免费看

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。