logistic regression--sas逐步回归推导验证

逻辑回归定义事件发生的概率为:
这里写图片描述
其中:
这里写图片描述
因此对于输入x分类结果为类别1和类别0的概率分别为:
这里写图片描述

(1)式综合起来可以写成:
这里写图片描述
取似然函数为:
这里写图片描述
对数似然函数为:
这里写图片描述

实际求解中通常取 -2log L
求解变量系数就是使用梯度下降法求 -2log L 的最小值,sas logistic 采用牛顿法 和Fisher scoring法(默认)。

先说几个概念

1、似然方程

公式-2log L 对于模型参数直接微分,使这些导数等于0 ,得到p+1个等式:
这里写图片描述
这些函数可以写成扩展形式如下:
这里写图片描述
矢量形式如下:
这里写图片描述
上式中的矩阵X被称为数据矩阵或设计矩阵,其维度为 n x (p+1)。
这里写图片描述
这些函数的解是模型最大似然参数估计的向量β。由于这些函数是非线性的,求解它们需要使用迭代的方法。常用牛顿迭代法,如下:
这里写图片描述
I 是函数 -log L对于β的二阶导数的矩阵,即下面的hessian矩阵。

2、信息矩阵(hessian矩阵)

对 - log L 求二阶偏导数,即Hessian矩阵为
这里写图片描述
这里写图片描述
如果写成矩阵形式,以H表示Hessian矩阵,

这里写图片描述
H = X T V X H=X^TVX H=XTVX
下面以sas proc logistic的输出为例,计算下统计量指标。

只含截距项的参数统计量:

这里写图片描述

上图包括样本数量,从第0步输入截距开始满足收敛状态表示模型已经输出了变量系数,下面的都是进行模型变量的参数估计、拟合统计量等。

-2log L = -2 * [ n1ln(n1/n) + n0 ln(n0/n) ]= -2 [(886*ln(886/10615) + 9726 * ln(9726/10615))] =6096.319

截距项的系数来自于先验概率 log(p/1-p)= log (886/9726)=-2.3961

然后模型参数估计的部分任务是计算出标准误差,模型参数的方差和协方差由信息矩阵的逆给出 ∑ ( β ) = I − 1 \sum(\beta)=I^{-1} (β)=I1。估计的参数的标准误由对角线元素的平方根给出,即: S E ( β j ) = ( v a r ( β j ) ) 1 2 SE(\beta_j)=(var(\beta_j))^{\frac 12} SE(βj)=(var(βj))21
参照上式
这里写图片描述 这里写图片描述
这里写图片描述
这里写图片描述
沃尔德卡方统计量 W = [ β j ^ / S E ^ ( β j ^ ) ] 2 W=[\hat{\beta_j}/\hat{SE}(\hat{\beta_j})]^2 W=[βj^/SE^(βj^)]2=(-2.3961/0.0351)^2 = 4662.4021

这里写图片描述

这里写图片描述
筛选变量进入时用的是评分卡方,是否剔除变量时用的是wald卡方(等于极大似然估计时的wald统计量)??

这里写图片描述

模型拟合统计量:

logistic 模型评估分成几个阶段进行,首先考虑检查似然函数值得统计量。通过与仅含截距项的模型比较,这些统计量可以评估将自变量引入模型的效应。

模型拟合统计量中 -2 log L 就是上面似然函数的对数,分为只含截距项的和截距项加自变量的两个值, L 1 = ∏ i = 1 n [ π i y i ] [ ( 1 − π i ) 1 − y i ] L_1=\prod_{i=1}^n[\pi_i^{y_i}][(1-\pi_i)^{1-y_i}] L1=i=1n[πiyi][(1πi)1yi]
取对数形式并两边同时乘以-2,得到:
− 2 l o g L = − 2 [ y i l n ( π i ) + ( 1 − y i ) l n ( 1 − π i ) ] -2logL=-2[y_iln(\pi_i)+(1-y_i)ln(1-\pi_i)] 2logL=2[yiln(πi)+(1yi)ln(1πi)] ,除了用 -2 log L 评估模型中所有自变量对模型的贡献,在逐步建模的情况下,还可以用 -2 log L 判断每一个变量被纳入模型时的增加值(注意:-2 log L 是似然函数乘以-2,所以在似然函数越大越好的情况下,-2 logL 越小越好。因此,逐步回归中,模型拟合统计量含自变量的-2 log L最好是越来越小的)。

注意到模型的变量越多,包含和不包含该自变量的 -2 log L 差别越大,即使这些变量的中的某些系数已经接近0,为了惩罚包含大量自变量的模型,制定了以下两个标准:AIC(赤池信息准则)和SC(舒尔茨准则)。舒尔茨准则也被称为贝叶斯信息准则(BIC)。
AIC = -2 log L + 2 r

SC = -2 log L + r ln(n)

检验全局零假设:

零假设 β = 0 β=0 β0(表示自变量 X k X_k Xk对事件发生可能性无影响作用)。如果零假设被拒绝,说明事件发生可能性依赖于 X k X_k Xk的变化。通常,样本量越大,自变量和违约变量之间的关联性指标就越强,得到一个所有参数都是0的模型的可能性就越低。
用于检验零假设的统计量有三个:
1.似然比统计量
2.分数统计量
3.wald统计量

似然比统计量 G = − 2 l n ( 不 含 x i 似 然 含 有 x i 似 然 ) G=-2ln(\frac {不含x_i似然} {含有x_i似然}) G=2ln(xixi),结果就是上面拟合统计量 只含截距项的 -2 log L 减去 包含自变量的 -2 log L,等于6096.319-5911.975=184.3449

后面的wald统计量和分数统计量计算参见博文

这里写图片描述

模型参数的解释:

逻辑回归发生比 o d d s = p 1 − p = e β 0 + β 1 x 1 + . . . β k x k + . . . + β p x p odds=\frac p {1-p}=e^{\beta_0+\beta_1 x_1+...\beta_k x_k+...+\beta_p x_p} odds=1pp=eβ0+β1x1+...βkxk+...+βpxp即事件发生的概率与不发生的概率之比。而发生比率(odds ration),即 O R = o d d s i o d d s j OR=\frac {odds_i} {odds_j} OR=oddsjoddsi

对于自变量 X k X_k Xk,每增加一个单位,odds ration为
这里写图片描述
因此,优比估计里面的变量name_6点估计实际上就是e^1.189=3.284。因为模型自变量的系数不等于0,所有概率比应该不等于1。如果模型自变量系数为负,概率比小于1。不论变量系数是大于0还是小于0,概率比的置信区间都不应该覆盖1。

参考:
1、logistic回归
2、逻辑回归
3、信用风险评分卡研究:基于SAS的开发与实施【Mamdouh Refaat】

  • 4
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
双重筛选逐步回归是一种使用SAS进行变选择和建模的方法。该方法通过逐渐添加和删除变,筛选出对目标变预测最有效的变,并建立最佳模型。 双重筛选逐步回归方法包括两个阶段:前向选择和后向删除。在前向选择阶段,从原始自变中选择一个与目标变相关性最强的变,并计算其与目标变的相关系数。然后逐步添加其他自变,并计算每个自变与目标变的相关系数。在该过程中,如果添加了一个自变且其与目标变的相关系数显著,则该变将被保留。这个过程将持续进行,直到没有更多自变可以添加为止。 在后向删除阶段,已选择的自变将继续保留,并逐渐删除其他与目标变相关性最低的自变。每次删除一个自变后,重新计算剩余自变的相关系数,并判断是否显著。如果删除一个自变导致模型性能下降显著,则该自变将被重新添加到模型中。这个过程将持续进行,直到没有更多自变可删除为止。 通过双重筛选逐步回归方法,我们可以得到一组与目标变高度相关且具有显著预测能力的自变,从而建立一个解释力较强的回归模型。此方法不仅可以提高模型的预测准确性,还可以减少冗余变对模型的影响,提高模型的可解释性和稳定性。 在SAS中,可以使用PROC REG或PROC GLMSELECT等过程来执行双重筛选逐步回归。这些过程提供了相关统计、选择标准和显著性检验等功能,帮助用户进行变选择和建模。用户可以根据具体情况选择合适的过程和参数,并根据结果进行模型的进一步解释和评估。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值