前言
数据预处理包含数据探索、数据清洗和特征预处理三部分,上篇文章介绍了无量纲化和特征分桶相关的处理方法,本章将继续介绍特征预处理中的统计变换和类别特征编码相关内容。
统计变换
数据分布的倾斜有很多负面的影响。我们可以使用特征工程技巧,利用统计或数学变换来减轻数据分布倾斜的影响。使原本密集的区间的值尽可能的分散,原本分散的区间的值尽量的聚合。
这些变换函数都属于幂变换函数簇,通常用来创建单调的数据变换。它们的主要作用在于它能帮助稳定方差,始终保持分布接近于正态分布并使得数据与分布的平均值无关。
1.Log变换
定义:Log变换通常用来创建单调的数据变换。它的主要作用在于帮助稳定方差,始终保持分布接近于正态分布并使得数据与分布的平均值无关。
Log 变换属于幂变换函数簇。该函数用数学表达式表示为
y = log