DBT改变了数据栈中传统处理数据转换的方式。它支持数据工程师将仓库中的原始数据转换为有意义的数据集。dbt run中关键特征是完全刷新功能。本教程将深入研究这个特性,帮助你有效地理解和使用该特征。
应用场景
想象有这样场景: 你的项目中有包含所有用户行为的模型,这些操作已被物化到表中。该表中有数百万条数据,所以你将其设置为增量方式加载数据。这意味着每一天,只有过去一天的行为数据被追加到表中。
几周后,你注意到有一些特殊情况造成数据漂移,并且由于对源表进行了一些手动更新,已造成原始数据与dbt表数据略有不同。为了确保dbt模型反映源数据的完整副本,你需要一种机制来完全刷新它。这就是dbt的Full Refresh发挥作用的地方。
- 增量策略 vs. 完全刷新
虽然完全刷新功能强大,但并不总是最有效的选择,特别是对于大型数据集,这时增量模型可能是较好选项。增量策略让dbt只处理新增的或更新的记录,从而节省时间和计算资源。
在某些情况下,就像前节场景中涉及数据量较大,你可能希望每天触发增量更新,然后每周或每月触发一次完全刷新,以确保所有历史数据都是准确的。
另外种还有一种场景:增量模型的逻辑发生了变化,这时需要完全刷新重新刷新数据,确保数据都采用最新的逻辑实现。
配置Full Refresh
要在dbt中启动完全刷新,可以在dbt运行或构建期间使用 --full-refresh
标志。
dbt run --full-refresh --models user_acti