- 博客(11)
- 收藏
- 关注
原创 第七章 Kettle-数据加载&全量加载&增量加载&批量加载
数据的预处理过程,除了包括数据抽取、数据本身的清洗与检验以及数据转换操作,还包括数据加载操作,数据加载是数据预处理过程的最后一个步骤,主要是负责将清洗检验、转换后的高质量数据加载到目标数据库中。 数据的加载机制与数据的抽取机制相类似,数据的加载机制可以分为全量加载和增量加载。其中,全量加载是指将目标数据表中的数据全部删除后,进行数据加载的操作;而增量加载是指目标表只加载源数据表中变化的数据,其中变化的数据包含新增、修改和删除的数据。
2022-11-14 12:05:12
1930
1
原创 6.4数据的商务规则
不同的企业,有着不同的业务规则和数据指标,这些指标应该计算完存储到数据仓库中,供企业决策者进行分析,从而得出战略性的企业决策。例如,A公司和B公司的总公司想要得知各省份的手机日销售额,这就属于一个商务规则。
2022-11-14 11:25:45
341
原创 6.3数据粒度的转换
业务系统一般存储非常明细的数据,而数据仓库中数据是用来分析的,不需要非常明细的数据。一般情况下,会将业务系统数据按照数据仓库粒度进行聚合,这个过程就被称为数据粒度的转换。例如,将城市转换成省份或者直辖市。
2022-11-14 10:55:10
360
原创 Kettle7.0安装
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、 Unix.上运行,绿色无需安装,数据抽取高效稳定。 Kettle中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出。 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。 Kettle中有两种脚本文件,transformation 和 job,tra
2022-11-10 14:09:14
1374
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人