一、数据整合
我们需要将来自各个数据流的数据整合起来,并且生成合适的变量放入整合的数据集。
二、抽样偏差
抽样偏差是指收集到的数据无法代表我们所关心的总体。例如,在网上调查顾客对某种产品的看法就会产生抽样偏差,因为网上调查只能触及那些使用网络并且愿意在网络上回答相关问题的人群。不使用网络的顾客的看法是否会不同于使用网络的顾客的看法?那些愿意在网络上表达意见的顾客的看法是否会不同于那些不愿意在网络上表达意见的顾客的看法?这些问题都无法通过网上调查所得的数据得到回答,所以必须在调查数据之外整体考虑抽样偏差存在的可能性及大小。如果条件允许,在抽样的过程中就要尽量避免抽样误差(例如,使用随机拦截调查而不是网上调查)。
三、清除变量
对所有观测而言取值都相同的冗余变量应该删除,因为它们对因变量没有任何预测能力。例如,在顾客调查中,如果是否有车这一栏的取值都是“有”,这个变量就应该删除。同样,如果某个变量的取值都为缺失,也应该删除。
数据挖掘一般使用的都是历史数据,需要保证在建模中使用到的自变量都是在预测因变量时能够获得的信息,不满足这一条件的自变量都应该删除。例如,在对信用卡持有者三个月后违约率建立预测模型时,就不能使用离因变量观测点三个月之内的历史信息。