倾斜数据的处理

一般认为,倾斜的数据就是严重不对称的数据。不倾斜的数据就是数据落在均值两侧的概率大致相同。可以通过直方图来看。

一般来说,如果最大值和最小值的比例超过20,那么数据倾斜的可能性就很大了。

同时,数据的倾斜可以用计算公式来估算,估算方式如下:


如果数据不倾斜的话,那么该值近似为0,右倾斜的话,大于0,左倾斜的话小于0. 可以通过平方跟,取对数,取倒数等方式来消除数据倾斜问题。这几种方式可统一在如下公式中:


lamda=2就是平方,0.5是开方,-1是倒数。有了训练数据之后,可以估算lamda的值(注意,lamda的值可以是任意值)。

Box and Cox (1964) 提出了用最大似然估计的方法来估算lamda的值。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值