dbt Full Refresh特性及应用示例

最新推荐文章于 2025-03-22 15:11:37 发布

梦想画家

最新推荐文章于 2025-03-22 15:11:37 发布

阅读量1.3k

点赞数 28

分类专栏：数据分析工程 # python 文章标签：数据治理数据工程分析工程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/neweastsun/article/details/142783415

版权

DBT改变了数据栈中传统处理数据转换的方式。它支持数据工程师将仓库中的原始数据转换为有意义的数据集。dbt run中关键特征是完全刷新功能。本教程将深入研究这个特性，帮助你有效地理解和使用该特征。

应用场景

想象有这样场景: 你的项目中有包含所有用户行为的模型，这些操作已被物化到表中。该表中有数百万条数据，所以你将其设置为增量方式加载数据。这意味着每一天，只有过去一天的行为数据被追加到表中。

几周后，你注意到有一些特殊情况造成数据漂移，并且由于对源表进行了一些手动更新，已造成原始数据与dbt表数据略有不同。为了确保dbt模型反映源数据的完整副本，你需要一种机制来完全刷新它。这就是dbt的Full Refresh发挥作用的地方。

增量策略 vs. 完全刷新

虽然完全刷新功能强大，但并不总是最有效的选择，特别是对于大型数据集，这时增量模型可能是较好选项。增量策略让dbt只处理新增的或更新的记录，从而节省时间和计算资源。

在某些情况下，就像前节场景中涉及数据量较大，你可能希望每天触发增量更新，然后每周或每月触发一次完全刷新，以确保所有历史数据都是准确的。

另外种还有一种场景：增量模型的逻辑发生了变化，这时需要完全刷新重新刷新数据，确保数据都采用最新的逻辑实现。

配置Full Refresh

要在dbt中启动完全刷新，可以在dbt运行或构建期间使用 --full-refresh标志。

dbt run --full-refresh --models user_acti

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。