DM09---Cox-Box

1. 相关参考内容
CoxBox论文

G.E.P. Box and D.R. Cox, “An Analysis of Transformations”, Journal of the Royal Statistical Society B, 26, 211-252 (1964).

scipy的CoxBox

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.boxcox.html
https://wenku.baidu.com/view/4f4f83b4aaea998fcd220e2c.html

2. CoxBox

来自https://www.cnblogs.com/king-lps/p/7843395.html的一段描述:

由于线性回归是基于正态分布的前提假设,所以对其进行统计分析时,需经过数据的转换,使得数据符合正态分布。
Box 和 Cox在1964年提出的Box-Cox变换可使线性回归模型满足线性性、独立性、方差齐性以及正态性的同时,又不丢失信息。

  1. 应用前提:
    在做线性回归的过程中,一般线性模型假定; Y=Xβ + ε, 其中ε满足正态分布,但是利用实际数据建立回归模型时,个别变量的系数通不过。例如往往不可观测的误差 ε
    可能是和预测变量相关的,不服从正态分布,于是给线性回归的最小二乘估计系数的结果带来误差,为了使模型满足线性性、独立性、方差齐性以及正态性,需改变数据形式,故应用box-cox转换。

  2. 和其他处理方法的比较: 对于非正太数据的转换方法有:
    这里写图片描述
    在一些情况下(P值<0.003)上述方法很难实现正态化处理,所以优先使用Box-Cox转换,但是当P值>0.003时两种方法均可,优先考虑普通的平方变换。
    使用Box-Cox变换后的数据得到的回归模型优于变换前的模型,变换可以使模型的解释力度等性能更加优良。
    变换后的残差可以更好的满足正态性、独立性等假设前提,降低了伪回归的概率。
    使用Box-Cox变换族一般可以保证将数据进行成功的正态变化,但在二分变量或较少水平的等级变量的情况下,不能成功进行转换,此时可以考虑使用广义线性模型,例如logistic模型、johson转换等。

基于已的正态分布模型及所给的样本,结合Box-Cox变换公式计算似然最大值。如下为Box-Cox的变换公式:
这里写图片描述
工程实现,采用SCIPY包处理:

coding=utf-8

from scipy import stats
import matplotlib.pyplot as plt

fig = plt.figure()
ax1 = fig.add_subplot(211)
x = stats.loggamma.rvs(5, size=500) + 5

prob = stats.probplot(x, dist=stats.norm, plot=ax1)
ax1.set_xlabel(”)
ax1.set_title(‘Probplot against normal distribution’)

ax2 = fig.add_subplot(212)
xt, _ = stats.boxcox(x)
prob = stats.probplot(xt, dist=stats.norm, plot=ax2)
ax2.set_title(‘Probplot after Box-Cox transformation’)

plt.show()
运行结果:
这里写图片描述

happyprince,http://blog.csdn.net/ld326/article/details/79530857

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值