SAS DM数据准备读书笔记10(数据转换)


 

数据转换是数据准备阶段最重要的一个环节,它主要有以下两个目标:

(1)创建新的用于分析的变量;

(2)处理潜在的数据质量问题,如缺失值和偏度问题。

比如,生日(Birthday)这个原始变量对于我们分析来说没有直接使用不方便,我们常常将其转换为岁数(Age)进行分析。当建模时,我们可能使用log(Age)进行分析。

以下这些变量转换在直接营销、信用卡分析中常常使用到:

  • 一段时间范围内的平均交易金额
  • 一段时间范围内的平均交易数量
  • 某件商品占全部商品的比例
  • 某段时间范围购买总额占所有客户生命周期购买总额的比例
  • ......

本节主要介绍以下几种主要的数据转换方法:

(1)创建新变量;

(2)类别变量映射;

(3)减少类比变量的cardinality;

(4)标准化连续变量;

(5)binning连续变量;

(6)改变变量分布;

 

(1)创建新变量

 

变量重命名

在项目分析中常常需要创建一个变量名映射表,以便于分析,比如将,Age, Gender, location,....等有含义的变量重命名为x1,x2,x3...方面宏调用。下面的程序将实现这个变量重命名的工作。

 

先介绍一个宏 ListToCol()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值