数据预处理--数据检查、变量标准化、分布变换、构造特征、特征筛选

最新推荐文章于 2021-05-16 15:46:44 发布

SummerStoneS

最新推荐文章于 2021-05-16 15:46:44 发布

阅读量625

点赞数

分类专栏：数据分析文章标签：数据预处理特征处理

本文链接：https://blog.csdn.net/SummerStoneS/article/details/91346231

版权

数据分析专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、数据检查

1）缺失值

有时候是null,有时候全是0，这个需要比想象中更仔细，因为取数的同学们有时候会默认填充0，有时候是因为数据库迁移，产品刚刚发布所以太远的数据没有等原因造成的，这些需要及时确认

对于有些变量仅对特定的人有值，（比如说理财的产品偏好，当然只有买了理财的人才会有偏好数据可以分析），可以给没有这个值的人填充一个数值，可以是999这样这个字段不会取到的大值（但是要注意在模型中把该字段当成是定序或者分类变量处理，不然在线性模型中会因为是极值而带坏模型），也可以根据意义考虑一下没有值是否比有值的人更不活跃等，给-1

2）没有变异性的变量

可以通过计算每列的std，把那些几乎没有variation的变量删掉

3）逻辑检查

不应该有负数的，不应该是0的，但是出现了这样的错误，年龄很大的（115岁），逻辑上异常的数有可能是数据提取时计算出了差错，也有可能就是数据在一开始录入有问题，又或者真有其事（活到115岁也没啥，子女持有账户blablabla），建议检查完后对逻辑上奇怪的记录做删除处理，有可能会误导模型的学习

4）异常值（极值）

3sigma原理，但是均值和标准差可以考虑不用全量数据，例如去掉最大最小的5%，1%数据后，再计算标准差和均值
box-plot 小于 $Q$_{L}$ - 1.5IQL$ 和超过 $Q$_{U} + 1.5IQL$ 的数被认为是极值， $Q$_{L}$ ,Q$_{U}$$ 分别是下四分位点和上四分位点, 四分位数鲁棒性比较强，上下25%的数可以任意大任意小而不影响四分位数取值，故而识别异常值比较客观
机器学习模型：聚类（基于距离，基于密度），OneClassSVM

对异常值的操作可以使删除整条记录，也可以划归到边界值上，或者对超过某个数值的数使用bin等

利用分位数查找极值（extreme_value_ratio正常等于1.5，根据具体情况可大可小）

def is_extreme(QL, QU, value):
    if value <= QL - EXTREME_VALUE_RATIO * (QU - QL) or value >= QU + EXTREME_VALUE_RATIO * (QU - QL):
        return True
    else:
        return False


def get_quartile(value_list):
    def split_half(value_list):
        value_list = sorted(value_list)
        mid_pos, is_odd = divmod(len(value_list), 2)
        if is_odd:
            return value_list[:mid_pos], value_list[mid_pos+1:], value_list[mid_pos]
        else:
            return value_list[:mid_pos], value_list[mid_pos:], sum(value_list[mid_pos-1:mid_pos+1])/2
    part1, part2, q5 = split_half(value_list)
    part11, part12, q25 = split_half(part1)
    part21, part22, q75 = split_half(part2)
    return q25, q5, q75

lower_quartile, _, upper_quartile = get_quartile(value_list)
is_extreme(lower_quartile, upper_quartile, value)

二、标准化

原因：

1）使不同量纲的变量对目标变量的影响具有可比性，涉及到距离的计算，如kmeans，和变量间方差的计算，如PCA，则必须先做标准化，不标准化的话，量级大的变量影响大

2）梯度下降法中加速模型收敛，圆形的梯度方向直指圆心，而椭圆的梯度方向比较迂回，最终可能都找不到最优解

但也不是所有模型都需要标准化，过去的建模经验是像决策树这样的模型不标准化效果反而更好

常见方法：

1）归一化

把变量的取值归到（0,1）之间或（-1,1）之间，常见的有(x-min) / (max-min)

2）标准化

z-score: (x-mean) / std

将正态分布的标量规约到服从N（0,1）

3）中心化（去均值）

参考：

https://blog.csdn.net/resourse_sharing/article/details/51979494

https://www.jianshu.com/p/1e63cd2afedc?from=timeline

三、分布变换

数据的正态性对于统计量的各种小样本性质，统计量的有限样本分布，极大似然估计都很重要

中心极限定理告诉我们当样本数趋向于无穷大时，样本的分布会接近正态分布，但有些变量本身的分布就不是正态的，那么对于一些有正态假设的检验，估计的模型来说，就需要事先对变量做分布变换

另一方面极大或极小的值经过变换后跟正常值差距缩小，减少了极值对模型的扰动

1）平方根变换

适用poisson等计数变量

2）倒数变换

服从二项分布或是两端波动较大的变量

3）log变换

自然界的大多数分布是指数分布，如果是钱数，人数，大体上log后呈现正态分布

取对数可以消除异方差。

取对数可以使非线性的变量关系转化为线性关系，更方便做参数估计。

y和x本来就不是线性关系，而是log(y)跟x是线性关系，log(y1)-log(y0)约等于增长率r，真实的关系可能是x每增加一单位，增长率不变（log(1+r)~r）

4）box-cox变换

1,2,3是box-cox的在lambda等于0.5,01,0时的特殊情况

box-cox对于正态性，样本间的方差齐性都有很好的修正作用，它的原理是引入lambda对y做变换，通过对变换后的y拟合线性模型，找到最优的lambda，使得变换后的变量基本服从线性模型的假设

四、分箱

分箱即是把连续变量离散化，它的好处是

1）突出变量间的关联，对涉及到距离的算法都会比较明显，例如age这个变量，24和26可能没什么区别，但是如果变成是20-25一组，26-30一组，我们就可能看到age和目标变量之间的关联

2）方便构造交叉变量，例如age*gender,可帮助在线性模型中引入非线性

3）提高模型稳定性，分箱使极值划归到某个区间范围内，减小了极值扰动

4）分箱后进行one-hot操作，每个类别具有一个单独的系数，可以增强拟合

方法：

1）等距

2）等频

3）专家法：根据业务的含义来确定分割点

4）iv最大

5）最小熵法

使变量能最大限度区分因变量的各类别的切分

6）卡方分箱法ChiMerge

相邻区间的类分别如果类似则合并，缺点是需要预排序，如果是U型或非线性则难以合并两端的区间

参考：

https://blog.csdn.net/m0_37235489/article/details/82148749

https://www.jianshu.com/p/b1b1344bd99f

五、构造特征

当特征有限，特征数量有限，或者有用的特征有限时，可以尝试构造特征

1. 对有用的字段，可以看这个变量时间维度的滞后项是否也显著，具体方法是用y对x做回归，把x的滞后项陆续加进模型，看是否显著，如果显著，则将该滞后项加入到模型的自变量组中

2.变化率过去一个月/过去三个月，过去三个月/过去6个月，过去6个月/过去一年等，通常也会先将过去三个月的减去过去一个月的，过去6个月的减去过去三个月的，再构造上述增长特征

3.单次金额如果有3个月内消费金额，和消费次数，可以构建笔均消费金额

4.最大值最小值变化

六、相关性和共线性

七、特征筛选

1. 岭回归（L1正则），通过让不重要的变量的系数变成0来实现冗余变量的剔除

（Lasso回归（L2正则），主要用来预防过拟合）

2. 前向回归和后向回归forward regression and backward regression

前向选择：根据BIC，AIC等准则，每一次将让模型拟合优度提升最大的变量筛选出来，加入到变量列表里

后向选择：每次把对拟合优度影响最小的变量从变量列表中踢出去

3. 决策树类模型的变量重要性feature importance

变量被使用的次数，次数越多变量越重要

去掉某个变量，看模型的accuracy下降多少，下降越多的变量越重要

https://scikit-learn.org/stable/modules/ensemble.html#random-forest-feature-importance

4.PCA降维

用崖底碎石图scree plot来确定最终选择多少变量

PCA的缺点是改变了原有的变量，需要给出合理解释

SummerStoneS

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据预处理--数据检查、变量标准化、分布变换、构造特征、特征筛选

一、数据检查1）缺失值有时候是null,有时候全是0，这个需要比想象中更仔细，因为取数的同学们有时候会默认填充0，有时候是因为数据库迁移，产品刚刚发布所以太远的数据没有等原因造成的，这些需要及时确认对于有些变量仅对特定的人有值，（比如说理财的产品偏好，当然只有买了理财的人才会有偏好数据可以分析），可以给没有这个值的人填充一个数值，可以是999这样这个字段不会取到的大值（但是要注意在模型...
复制链接

扫一扫

专栏目录