kettle案例6.3–数据转换—数据粒度的转换
业务系统一般存储非常明细的数据,而数据仓库中数据是用来分析的,不需要非常明细的数据。一般情况下,会将业务系统数据按照数据仓库粒度进行聚合,这个过程就被称为数据粒度的转换。例如,将城市转换成省份或者直辖市
案例介绍
通过Kettle工具将对数据表company进行数据粒度的转换操作,即将数据表company中字段为salesArea的数据都统一成省级份,并存储到新数据表company_new中
数据准备
A公司的日手机销售情况中的销售区域是市级,而B公司的日手机销售情况中的销售区域是省级,A公司和B公司的日手机销售情况合并后存储在数据表company中,通过仔细观察数据表company中字段为salesArea的一列,发现该列既包含市级也包含省级。数据表company中的部分数据内容,如图所示
1.打开Kettle工具,创建转换
使用Kettle工具,创建一个转换granularity,并添加表输入控件、字段选择控件、排序记录控件、记录集连接控件、过滤控件、空操作控件、表输出控件以及Hop跳连接线,具体如图所示
2.配置表输入控件
双击“表输入”控件,进入“表输入”配置界面
单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,具体如图所示
在SQL框中编写获取数据表company中所有数据的SQL语句,然后单击【预览】按钮,查看数据表company中数据是否成功从MySQL数据库中抽取到表输入流中,具体如图所示