【Azure Data Platform】ETL工具(11)——ADF 数据流

最新推荐文章于 2024-07-24 15:17:05 发布

置顶

發糞塗牆

最新推荐文章于 2024-07-24 15:17:05 发布

阅读量1.3k

点赞数

分类专栏： Azure 文章标签： azure etl ADF

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DBA_Huangzj/article/details/122906210

版权

本文详细介绍了如何在Azure Data Factory (ADF) 中使用数据流进行数据转换。从创建源（如Blob Storage）到配置数据流，包括派生列和SQL DB目标，以及调试和实际运行数据流的步骤。ADF数据流提供了一种无需编码的可视化工具，底层利用Databricks集群，使得数据处理更高效和友好。通过实例展示了如何将txt文件拆分为两列并存储到SQL DB中。

摘要由CSDN通过智能技术生成

本文属于【Azure Data Platform】系列。
接上文：【【Azure Data Platform】ETL工具(10)——ADF 集成运行时（Integration Runtimes，IR）
本文介绍ADF 的数据流

前言

跟【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据不同，前面说的是快速搭建一个Data Flow并做一些简单的操作，本文尝试进行一些深入的介绍。

Azure 提供了一个叫Databricks的服务，是一个对数据进行统一和分析的平台。但是Databricks需要一定程度的编码。与之相比，ADF 的Data flow是一个code-free的可视化工具。同时底层使用着Databricks集群，这比直接使用Databricks更加友好和高效（在某些方面）。

可以把Dataflow作为一个常规的pipeline活动来运行。上一文介绍过的IR就可以用来运行这些Data flow。可以使用默认的“AutoResolveIntegrationRuntime”，也可以自己创建一个新的IR。

选择创建新的IR，一方面可以保障数据合规性，另外一方面可以自定义一些配置，比如集群大小（最小8个核心），生存时间（用来指定data flow运行完毕只有，最长保留多久

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。