特征工程-特征构建

最新推荐文章于 2024-02-06 15:47:52 发布

无知书童

最新推荐文章于 2024-02-06 15:47:52 发布

阅读量938

点赞数

分类专栏： # 特征工程文章标签：特征构建

本文链接：https://blog.csdn.net/qq_28404829/article/details/100190805

版权

特征工程专栏收录该内容

4 篇文章 0 订阅

订阅专栏

特征工程-特征构建

Concat
Quantile_bin
Box Cox 转换

特征工程

Concat

Concat 函数通过合并某些变量来构造新变量（例如，合并描述同一对象的变量）

输入变量	输入变量	输入变量
color	theme	size
red	nature	small

新建变量	新建变量	新建变量
color_theme	color_size	theme_size
red_nature	red_small	nature_small

Quantile_bin

Quantile_bin函数通过根据所选变量的频率或值将其分组来构造新变量。

输入变量	新建变量
age	age_val_b3
19	0~25
45	25~50
60	50~75

Box Cox 转换

Box cox Transformation可以将非正态分布的独立因变量转换成正态分布，我们知道，很多统计检验方法的一个重要假设就是“正态性”，所以当对数据进行Box cox Transformation后，这意味着我们可以对我们的数据进行许多种类的统计检验。

Box-Cox变换是Box和Cox在1964年提出的一种广义幂变换方法，是统计建模中常用的一种数据变换，用于连续的响应变量不满足正态分布的情况。Box-Cox变换之后，可以一定程度上减小不可观测的误差和预测变量的相关性。

Box-Cox变换的主要特点是引入一个参数，通过数据本身估计该参数进而确定应采取的数据变换形式，Box-Cox变换可以明显地改善数据的正态性、对称性和方差相等性，对许多实际数据都是行之有效的。

Box Cox transformation的核心是指数λ。对于不同分布形式的数据，λ的取值不同，但取值范围都是[-5，5].The “optimal value” is the one which results in the best approximation of a normal distribution curve. The transformation of y has the form:
在这里插入图片描述 only for positive data
当y中有负值时，可以使用下面的公式：

λ值的确定

通过最大似然估计或者Bayes方法.

使用Box-Cox变换族一般都可以保证将数据进行成功的正态变换，但在二分变量或较少水平的等级变量的情况下，不能成功进行转换，这时可以使用广义线性模型，如Logustics模型、Johnson转换等.

通过求解λ值，就可以确定具体采用哪种变换形式。可见，Box-Cox变换的一个显著优点是通过求变换参数λ来确定变换形式，而这个过程完全基于数据本身而无须任何先验信息，这无疑比凭经验或通过尝试而选用对数、平方根等变换方式要客观和精确。

Box-Cox变换的目的是为了让数据满足线性模型的基本假定，即线性、正态性及方差齐性，然而经Box-Cox变换后数据是否同时满足了以上假定，仍需要考察验证。

参考
https://blog.csdn.net/qq_39185764/article/details/81259129

无知书童

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
特征工程-特征构建

特征工程-特征构建ConcatQuantile_binBox Cox 转换特征工程ConcatConcat 函数通过合并某些变量来构造新变量（例如，合并描述同一对象的变量）输入变量输入变量输入变量colorthemesizerednaturesmall新建变量新建变量新建变量color_themecolor_sizethe...
复制链接

扫一扫