hudi系列-借助hudi优化架构

本文讨论了数据分析平台的需求,分析了常见架构如Lambda架构的问题,提出了Hudi如何通过其特性解决这些问题,包括统一数据存储、支持更新、流式增量查询等,实现了分钟级别的实时数仓并简化了整体架构。
摘要由CSDN通过智能技术生成

1. 数据分析平台的需求

自从工作以来一直都是从事大数据相关的工作,现在回头想一下,虽然每个阶段都不是最先用上当时最新的技术,但还是跟随着它们“稳定”的步伐,也庆幸自己在不同的阶段能接触到不一样的技术面,从这些

不同的经历之中,我总结了业务需求对数据的处理能力主要有三种要求:

  • 在线联机分析: 很多公司在最初引入大数据相关技术就是为了BI方面的报表统计需求,所以支持sql语言、基于内存的即席查询是最适合的,从impala,presto,kylin,phonex等,到后来的clickhouse,doris,druid等,从纯计算发展成了计算存储一体。
  • 离线批处理:对大批量数据的深层挖掘以及数据建模型中应用得比较多,目前比较常用的应该还是hive和spark
  • 实时流处理:预警、实时推荐、风控等方面,从storm->spark streaming->flink,现在flink已经独步天下了,随着flink-cdc和connector的不断发展,flink用来做数据实时同步也越来越多了。

单论计算引擎,spark,flink三者都能提供以上三种能力,但是强弱各不同,spark本质是批处理,一直往流处理发展,从spark streaming到StructStreaming&#x

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值