ADF: 获取Data Lake Storage上的文件列表并根据文件名删除文件

翩跹星子

已于 2024-05-31 10:15:49 修改

阅读量359

点赞数 5

分类专栏： Azure Data Factory 文章标签： ADF Azure

于 2024-05-29 17:16:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24470501/article/details/139299556

版权

Azure Data Factory 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

假设 Data Lake 上有个test的文件夹，有如下文件

目标：使用Azure Data Factory的Pipeline获取这个目录下的文件名列表，并删除掉以"ETC"开头的文件。

步骤：

1. 需要在Linked services中新建一个能连接到Data Lake的连接

2. 在Datasets里面创建一个数据集

Datasets -> New dataset -> Azure Data Lake Storage Gen2 -> DelimitedText

Linked service 选择上一步创建的连接

添加一个参数

设置好File path:

也可以将文件路径作为参数传入

3. 新建Pipeline, 将Get Metadata 拖拽出来，按如下设置

4. 添加ForEach

表达式：@activity('Get Metadata1').output.childItems

这里就可以拿到文件名列表

5. 点击ForEach活动的编辑按钮进入它里面, 添加If Condition活动

输入表达式：@startswith(item().name,'ETC')

这里判断是否是ETC文件名开头

6. 点击If Condition 中true部分的编辑按钮进入

7. 添加Delete活动，按以下设置

如果If Condition条件为true, 即文件名以ETC开头，将被删除，这里将Recursively的勾选去掉，是指不删除目录，也就是不删除test文件夹

可以把这里去掉，这样就不用写log，默认是勾选的，勾选状态下需要选择log生成的路径，看需要吧

这样就完成了。

如果是根据文件更新时间去删除，就不用去获取文件名列表，只要提供正确的路径和时间即可，文件更新时间可以直接给以下这两个地方用表达式来设置。

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。