数据克隆与实时表:Azure 数据湖屋的高效数据处理方案
1. 深度克隆(Deep Clones)
1.1 深度克隆概述
深度克隆会创建数据文件和元数据的完整副本,与使用 CREATE TABLE AS SELECT (CTAS) 命令复制数据非常相似,但更为简单,因为它无需指定分区、约束等。深度克隆还支持对克隆表进行增量更改,适用于数据归档、数据共享、机器学习模型测试与训练等场景。
1.2 深度克隆的使用示例
以下脚本展示了如何使用深度克隆命令:
%sql
CREATE TABLE IF NOT EXISTS nyctaxi_deep_clone
DEEP CLONE nyctaxi
LOCATION 'abfss://data@rl001adls2.dfs.core.windows.net/raw/delta/nyctaxi_delta_Deep_clone'
1.3 时间旅行功能测试
深度克隆支持时间旅行功能,允许我们恢复到原始数据集的特定版本。例如,若版本 1 包含 10 个优化文件,版本 0 包含 400 个原始文件,可使用以下脚本创建版本 0 的深度克隆:
%sql
CREATE TABLE IF NOT EXISTS nyctaxi_deep_cloneV0
DEEP CLONE nyctaxi VERSION AS OF 0
TBLPROPERTIES (
delta.logRetenti
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



