数据转换是数据准备阶段最重要的一个环节,它主要有以下两个目标:
(1)创建新的用于分析的变量;
(2)处理潜在的数据质量问题,如缺失值和偏度问题。
比如,生日(Birthday)这个原始变量对于我们分析来说没有直接使用不方便,我们常常将其转换为岁数(Age)进行分析。当建模时,我们可能使用log(Age)进行分析。
以下这些变量转换在直接营销、信用卡分析中常常使用到:
- 一段时间范围内的平均交易金额
- 一段时间范围内的平均交易数量
- 某件商品占全部商品的比例
- 某段时间范围购买总额占所有客户生命周期购买总额的比例
- ......
本节主要介绍以下几种主要的数据转换方法:
(1)创建新变量;
(2)类别变量映射;
(3)减少类比变量的cardinality;
(4)标准化连续变量;
(5)binning连续变量;
(6)改变变量分布;
(1)创建新变量
变量重命名
在项目分析中常常需要创建一个变量名映射表,以便于分析,比如将,Age, Gender, location,....等有含义的变量重命名为x1,x2,x3...方面宏调用。下面的程序将实现这个变量重命名的工作。
先介绍一个宏 ListToCol()