特征工程-特征构建
特征工程
Concat
Concat 函数通过合并某些变量来构造新变量(例如,合并描述同一对象的变量)
输入变量 | 输入变量 | 输入变量 |
---|---|---|
color | theme | size |
red | nature | small |
新建变量 | 新建变量 | 新建变量 |
---|---|---|
color_theme | color_size | theme_size |
red_nature | red_small | nature_small |
Quantile_bin
Quantile_bin函数通过根据所选变量的频率或值将其分组来构造新变量。
输入变量 | 新建变量 |
---|---|
age | age_val_b3 |
19 | 0~25 |
45 | 25~50 |
60 | 50~75 |
Box Cox 转换
Box cox Transformation可以将非正态分布的独立因变量转换成正态分布,我们知道,很多统计检验方法的一个重要假设就是“正态性”,所以当对数据进行Box cox Transformation后,这意味着我们可以对我们的数据进行许多种类的统计检验。
Box-Cox变换是Box和Cox在1964年提出的一种广义幂变换方法,是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。Box-Cox变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性。
Box-Cox变换的主要特点是引入一个参数,通过数据本身估计该参数进而确定应采取的数据变换形式,Box-Cox变换可以明显地改善数据的正态性、对称性和方差相等性,对许多实际数据都是行之有效的。
Box Cox transformation的核心是指数λ。对于不同分布形式的数据,λ的取值不同,但取值范围都是[-5,5].The “optimal value” is the one which results in the best approximation of a normal distribution curve. The transformation of y has the form:
only for positive data
当y中有负值时,可以使用下面的公式:
λ值的确定
通过最大似然估计或者Bayes方法.
使用Box-Cox变换族一般都可以保证将数据进行成功的正态变换,但在二分变量或较少水平的等级变量的情况下,不能成功进行转换,这时可以使用广义线性模型,如Logustics模型、Johnson转换等.
通过求解λ值,就可以确定具体采用哪种变换形式。可见,Box-Cox变换的一个显著优点是通过求变换参数λ来确定变换形式,而这个过程完全基于数据本身而无须任何先验信息,这无疑比凭经验或通过尝试而选用对数、平方根等变换方式要客观和精确。
Box-Cox变换的目的是为了让数据满足线性模型的基本假定,即线性、正态性及方差齐性,然而经Box-Cox变换后数据是否同时满足了以上假定,仍需要考察验证。
参考
https://blog.csdn.net/qq_39185764/article/details/81259129