本文属于【Azure Data Platform】系列。
接上文:【【Azure Data Platform】ETL工具(10)——ADF 集成运行时(Integration Runtimes,IR)
本文介绍ADF 的数据流
前言
跟【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据不同,前面说的是快速搭建一个Data Flow并做一些简单的操作,本文尝试进行一些深入的介绍。
Azure 提供了一个叫Databricks的服务,是一个对数据进行统一和分析的平台。但是Databricks需要一定程度的编码。与之相比,ADF 的Data flow是一个code-free的可视化工具。同时底层使用着Databricks集群,这比直接使用Databricks更加友好和高效(在某些方面)。
可以把Dataflow作为一个常规的pipeline活动来运行。上一文介绍过的IR就可以用来运行这些Data flow。 可以使用默认的“AutoResolveIntegrationRuntime”,也可以自己创建一个新的IR。
选择创建新的IR,一方面可以保障数据合规性,另外一方面可以自定义一些配置,比如集群大小(最小8个核心), 生存时间(用来指定data flow运行完毕只有,最长保留多久,时间越久费用越高)。
演示
下面通过例子介绍一些Data flow的概念。 首先创建一个文件放到blob storage上。内容就4行,列出我个人现在用到的Azure resources。 并且存储成一个txt文件名为“DataflowDemo.txt”。然后会将它拆分成两列,一列是序号,一列是资源名。最后写入到SQL DB中。
Resources