在对业务数据进行抽取和简单的处理后,需要根据分析的需要对业务数据进行转换,
扩充业务数据的信息,使之更适合分析和可视化。
基本的转换分为两种:
※ 表级别的转换
★ 转换带权重的数据集合
★ 转换时间序列的数据集
★ 数据集聚合
★ 过滤数据集
※ 字段级别的转换
★ 删除字段
★ 添加字段。可能根据需要添加若干个字段。比如原来有个账户激活日期字段,我们想查看年,月的账户情况的话,既可以将日期字段拆成两个字段,Active_Year和Active_Month,同时删除原来的日期字段。
★ 转换数据类型。比如源数据中性别为0表市男,1表示女。通常为了更好的理解数据,需要转换过来。
★ 字段分组。这是很重要的技术,一般数据挖掘工具对于过多离散值的字段表现不好(超过25或者30个)。或者为了分析需要将字段重新划分成区域,如年龄。可以通过直方图等可视化技术统计各值的数目,通常将少于2%的字段标为Other类,其他需要进行字段的解码。对于连续值,就是分箱操作
※需要注意的是,对于每一个转换的步骤,都要进行归档,保存元数据,对于下一步的验证业务数据集的正确性非常重要。