特征工程-特征构建

特征工程-特征构建


特征工程

Concat

Concat 函数通过合并某些变量来构造新变量(例如,合并描述同一对象的变量)

输入变量输入变量输入变量
colorthemesize
rednaturesmall
新建变量新建变量新建变量
color_themecolor_sizetheme_size
red_naturered_smallnature_small

Quantile_bin

Quantile_bin函数通过根据所选变量的频率或值将其分组来构造新变量。

输入变量新建变量
ageage_val_b3
190~25
4525~50
6050~75

Box Cox 转换

Box cox Transformation可以将非正态分布的独立因变量转换成正态分布,我们知道,很多统计检验方法的一个重要假设就是“正态性”,所以当对数据进行Box cox Transformation后,这意味着我们可以对我们的数据进行许多种类的统计检验。

Box-Cox变换是Box和Cox在1964年提出的一种广义幂变换方法,是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。Box-Cox变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性。

Box-Cox变换的主要特点是引入一个参数,通过数据本身估计该参数进而确定应采取的数据变换形式,Box-Cox变换可以明显地改善数据的正态性、对称性和方差相等性,对许多实际数据都是行之有效的。

Box Cox transformation的核心是指数λ。对于不同分布形式的数据,λ的取值不同,但取值范围都是[-5,5].The “optimal value” is the one which results in the best approximation of a normal distribution curve. The transformation of y has the form:
在这里插入图片描述only for positive data
当y中有负值时,可以使用下面的公式:
在这里插入图片描述
λ值的确定

通过最大似然估计或者Bayes方法.

使用Box-Cox变换族一般都可以保证将数据进行成功的正态变换,但在二分变量或较少水平的等级变量的情况下,不能成功进行转换,这时可以使用广义线性模型,如Logustics模型、Johnson转换等.

通过求解λ值,就可以确定具体采用哪种变换形式。可见,Box-Cox变换的一个显著优点是通过求变换参数λ来确定变换形式,而这个过程完全基于数据本身而无须任何先验信息,这无疑比凭经验或通过尝试而选用对数、平方根等变换方式要客观和精确。

Box-Cox变换的目的是为了让数据满足线性模型的基本假定,即线性、正态性及方差齐性,然而经Box-Cox变换后数据是否同时满足了以上假定,仍需要考察验证。

参考
https://blog.csdn.net/qq_39185764/article/details/81259129

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值