基于亚马逊云科技Serverless架构的实时数仓架构

最新推荐文章于 2023-06-08 18:08:01 发布

Discovering_

最新推荐文章于 2023-06-08 18:08:01 发布

阅读量415

点赞数

文章标签：科技 serverless 架构

本文链接：https://blog.csdn.net/Discovering_/article/details/126820381

版权

近年来，各级政府和企业响应数字化转型的号召，都已开始或者即将开始数字化转型。各类企业通过前期的业务线上化、信息化，积累了大量数据，而数字化转型就是要聚合这些数据，进行深入挖掘分析，用数据来驱动业务，用数据来支撑决策、用数据来推动业务和商业模式创新、推动业务流程优化，进而实现降本增效。

要实现数据价值，建设数据仓库是在数字化转型过程中不得不面对的一项任务。数据仓库汇聚各个业务部门数据，避免数据孤岛，使数据真正成为整个企业的数据，而不是某个部门的数据。

数据仓库的技术架构包括离线数仓和实时数仓或准实时数仓。离线数仓已发展多年，当前已无法完全满足企业在竞争中脱颖而出的发展需求，实时数仓越来越多成为企业建设数据仓库的首选。然而由于实时数仓对实时性的严格要求，实现实时数仓的技术难度远远大于离线数仓，一些现有的实时数仓架构，只能实现准实时，而且无法解决削峰平谷、无感扩展等问题。

本文为大家提供一种高效的实时数仓架构：基于亚马逊云科技 Serverless 架构的实时数仓架构。

实时数仓常见场景与亚马逊云科技的做法赏析

我们先来赏析一下常见的实时数仓场景，以及亚马逊云科技Serverless架构的实时数仓成功落地的案例：

1、APP 埋点数据实时采集与分析（比如：实时智能推荐、实时欺诈检测）

在此，我们以智能推荐场景为例：根据用户历史的购买或浏览行为，通过推荐算法预测用户兴趣与需要，并从海量推荐资产（可能是短视频、广告、动图）中挑选最合适的进行推送。推荐系统在飞速发展，对时延的要求也越来越苛刻和实时化。往往业务方希望客户在使用App(或浏览网页）时，就能基于当前行为和历史数据进行动态推荐。

数据来源一般为App埋点采集和历史浏览数据、消费数据、和广告资产等。

常见做法：流式ETL与数据同步与传输可能会用到Flume、Kafka等工具，计算有可能会采用ClickHouse、Flink、Spark等大数据计算工具。数据源端和数据消费端就五花八门一些，在此不作展开。（同样的技术架构也出现在实时欺诈检测等场景中）

我们来看一下亚马逊云科技的案例：使用 Amazon Kinesis Data Streams （流式数据接入产品，Amazon KDS）实时接入 APP 埋点数据到 Amazon Redshift（云原生数据仓库）中，用于指标分析和 BI 展现。支持高达30万/秒的数据摄入速率，延迟小于10秒；在数据实时摄入数仓的同时，支持高并发实时查询，支持大宽表多表关联，复杂聚合等各种 SQL

最低0.47元/天解锁文章

Discovering_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于亚马逊云科技Serverless架构的实时数仓架构

同时，Redshift Serverless 架构，运维简单，按需计费，降本增效，将客户从纷繁复杂的架构搭建、监控、运维中解放出来，专注于数据查询分析，数据价值挖掘，实现数据驱动决策。然而，采用亚马逊云科技提供的 DMS+S3+Redshift 方式，无需开发数据解析程序，只需通过简单的配置，即可实现数据入写 S3，Redshift 可与 S3 完美集成，即数据进入 S3，即可在 Redshift 中查询分析。数据仓库汇聚各个业务部门数据，避免数据孤岛，使数据真正成为整个企业的数据，而不是某个部门的数据。
复制链接

扫一扫