★转换业务数据(四)

在对业务数据进行抽取和简单的处理后,需要根据分析的需要对业务数据进行转换,

扩充业务数据的信息,使之更适合分析和可视化。

基本的转换分为两种:

※ 表级别的转换

  转换带权重的数据集合

  转换时间序列的数据集

  数据集聚合

  过滤数据集

※ 字段级别的转换

  删除字段

  添加字段。可能根据需要添加若干个字段。比如原来有个账户激活日期字段,我们想查看年,月的账户情况的话,既可以将日期字段拆成两个字段,Active_YearActive_Month,同时删除原来的日期字段。

  转换数据类型。比如源数据中性别为0表市男,1表示女。通常为了更好的理解数据,需要转换过来。

  字段分组。这是很重要的技术,一般数据挖掘工具对于过多离散值的字段表现不好(超过25或者30个)。或者为了分析需要将字段重新划分成区域,如年龄。可以通过直方图等可视化技术统计各值的数目,通常将少于2%的字段标为Other类,其他需要进行字段的解码。对于连续值,就是分箱操作

  ※需要注意的是,对于每一个转换的步骤,都要进行归档,保存元数据,对于下一步的验证业务数据集的正确性非常重要。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值