《数据“科学家”必读》 | (终结篇)省略中间环节,实现数据的直接访问

作为一款致力于成为数字化企业「最强大脑」的服务,Azure Synapse Analysis高效高弹性的架构设计、简单易用的操作、强大的功能和澎湃的数据处理和分析能力,能够帮助我们解决与数据准备、数据管理、数据仓库、大数据和AI等方面有关的很多挑战。

我们将通过《数据“科学家”必读》系列文章带领大家全面体验Azure Synapse Analysis。本系列共分为六期内容,本篇是其中的最后一期

  1. 第一次亲密接触:开箱初体验,概括了解Azure Synapse Analysis的功能与价值

  2. 围绕Cosmos DB自行DIY的Azure Synapse Analysis解决方案

  3. Azure Synapse Analysis与Azure Function服务的配合使用

  4. 通过增量数据CDC对Azure Synapse Analysis中的数据进行更新

  5. 借助Azure Data Factory工具实现数据处理水线的自动化操作

  6. 借助Synapse Link的一键同步省略ETL过程,实现最新数据的直接访问

在上一期内容中,我们已经介绍了如何通过Data Factory工具将整个数据水线自动化。至此,我们已经可以通过Azure Synapse Analysis服务的内置的ETL能力,实现了上游Cosmos DB内的Transaction数据的增量数据(CDC)推送至下游的数据仓库内。通过Azure Synapse Analysis类似的方式,我们可以针对不同上游数据系统CDC数据与下游系统同步。整个数据路径中我们需要提取,转换,再到加载更新到数据仓库。

但实际上,Azure Synapse Analysis目前对Cosmos DB提供了更加简洁的解决方案:Synapse Link。通过Synapse Link可实现一键同步,上述数据路径只需要简单在产品上一键打开开关即可。

Synapse Link将Cosmos DB内的实时数据直接暴露给Azure Synapse Analysis进行消费,简化了中间进行CDC/ETL的过程。目前Synapse Link只支持Cosmos DB SQL引擎,未来会对更多数据库产品进行支持。

那么本期,我们终于开始要看看下列架构图中所示的“Path 1”是如何实现的了!

具体操作步骤如下:

1. 在Azure Cosmos DB中打开Synapse Link功能。

2. 创建Cosmos Container并开启Analysis Store能力。

3. 在Azure Synapse Analysis中创建Cosmos数据源,登入Azure Synapse Studio,选择Data -> Connect to external data -> Azure Cosmos DB。

4. 在Azure Synapse中使用Notebooks访问Cosmos DB中的数据。需要注意目前Cosmos Synapse Link为预览版,暂时只支持通过Spark引擎进行数据访问,后续会支持T-SQL引擎。

5. 通过前面的数据仿真程序代码,添加或更新数据,再次通过Azure Synapse Analysis进行访问,验证数据实时性。

从上面的操作可以看出,整个过程非常简单,数据的访问过程开箱即用。后续Synapse Link可以更广泛的支持主流的数据产品,还是非常值得期待的。

本系列文章到此结束,希望能帮助大家对Azure Synapse Analysis获得初步了解,让Azure Synapse Analysis助力企业在数字化转型之路上越跑越快。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值