ETL提取过程
(1)提取
收集来自不同来源的数据,如文本文件,XML文件,Excel文件或各种其他来源
(2)转换
所有收集的数据都已转换为相同的格式。根据要求,格式可以是任何格式。在该步骤中,将一组函数规则应用于提取的数据以将其转换为单个标准格式。它可能涉及以下任务:
过滤:仅将特定属性加载到数据仓库中。
清除:使用特定的默认值填充空值。
加入:将多个属性加入到一个属性中。
拆分:将单个属性拆分为多个属性。
排序:根据属性对元组进行排序。
(3)加载
从各种来源收集大量数据,转换它们,最后加载到数据仓库。
大数据学习第三篇
于 2023-07-10 17:27:52 首次发布