24 二分逻辑回归

## 1.逻辑回归特点
  In logistic regression, a line L1 defines a probability distribution over the input space. A line L1 is said to be better than line L2, if the the distribution defined by L1 is low at class ‘-1’ points and high at class ‘+1’ points, on average, compared to the distribution defined by line L2.我们采用一个简单的数据集:
![1559268940560](assets/1559268940560.png)
  我们对标志变量进行回归分析,以虚线表示最小二乘回归,以实线代表logistic回归。
![1559269066887](assets/1559269066887.png)
  当然,对于这样的非线性问题,线性回归的效果显然很差,这里采用逻辑回归去逼近。

## 2.逻辑回归理解
  logistic回归曲线是如何产生的呢?考虑在给定 $X=x$情况下 $Y$ 的条件均值,表示为$E(Y|x)$。该式表示在给定预测变量值的情况下,期望的响应变量值。回忆前述内容,在线性回归中,响应变量被认为是一个定义为$Y=B_0 + B_1 +\varepsilon$的随机变量。现在,当误差项 $\varepsilon$均值为0时,利用线性回归,得到$E(Y|x)=B_0 +B_1x$,其可能的取值包含整个实数域。简单来说,将条件均值$E(Y|x)$定义为$\pi (x)$。则,logistic回归的条件均值具有与线性回归不同的形式。
$$
\pi(x)=\frac{e^{\beta_{0}+\beta_{1} x}}{1+e^{\beta_{0}+\beta_{1} x}}
$$
  等式中的曲线被称为sigmoidal,因为其形状是S型,而且是非线性的。
&emsp;&emsp;观察这个式子,当$\lim _{a \rightarrow-\infty}\left[\frac{e^{a}}{1+e^{a}}\right]=0$时,$\pi (x)$取得最小值;而当$\lim _{a \rightarrow-\infty}\left[\frac{e^{a}}{1+e^{a}}\right]=1$时,$\pi (x)$取得最大值。因此,$\pi (x)$成为$0<\pi(x) \leqslant 1$时能够用概率来解释的一种表示形式。也就是说,$\pi (x)$可以被解释为$X=x$的记录取值(例如,某种疾病)的概率,或解释为$1-\pi (x)$,表示该记录与取值间的概率差。
&emsp;&emsp;综上所述,当我们的响应是二元分类变量的时候,误差就只可能是两种可能形式的另一种,比如:Y=1(患有某种疾病),则对于这个记录$X=x$来说,其概率就是$\pi (x)$,因此,这个判断的误差就是$\varepsilon=1-\pi(x)$,这是数据点Y=1与其曲线$\pi(x)=\frac{e^{\beta_{0}+\beta_{1} x}}{1+e^{\beta_{0}+\beta_{1} x}}$之间的垂直距离。然而,如果真实标签$Y=0$(未患有某种疾病),其出现的概率为$1-\pi (x)$(响应概率为负值)对于这个记录$X=x$而言,误差$\varepsilon=0-\pi(x)=-\pi(x)$,为数据点$Y=0$与在其下的曲线$\pi (x)$的垂直距离。
&emsp;&emsp;logistic回归可以用对数转换:
$$
g(x)=\ln \left[\frac{\pi(x)}{1-\pi(x)}\right]=\beta_{0}+\beta_{1} x
$$
## 3.最大似然估计
&emsp;&emsp;我们需要利用最大似然估计方法来获得参数估计,以使得观察到的观察数据似然性最大化。
&emsp;&emsp;$l(\boldsymbol{\beta} | x)$是归于参数$\boldsymbol{\beta}=\beta_{0}, \beta_{1}, \ldots, \beta_{m}$的函数,表示观察数据 $x$ 的概率。通过获得$\boldsymbol{\beta}=\beta_{0}, \beta_{1}, \ldots, \beta_{m}$的值,使$l(\boldsymbol{\beta} | x)$最大化,从而发现最大似然估计,获得最能反应观察数据的参数值。
&emsp;&emsp;其给定数据的肯定响应的概率为$\pi(x)=P(Y=1 | x)$,否定响应的概率为$1-\pi(x)=P(Y=0 | x)$,当相应为肯定值的时候,$\left(X_{i}=x_{i}, Y_{i}=1\right)$,将使 $\pi (x)$ 概率到达似然值,而当观察的响应为否定值时:$\left(X_{i}=x_{i}, Y_{i}=0\right)$,将使 $1-\pi (x)$概率达到似然。这样,当$Y_i=0$或 1 时,第 $i$ 个观察记录对似然的贡献可以表示为$\left[\pi\left(x_{i}\right)\right]^{y_{i}}\left[1-\pi\left(x_{i}\right)\right]^{1-y_{i}}$。观察的假设是独立的,使得我们可以将似然函数$l(\boldsymbol{\beta} | x)$表示为独立项的乘积:
$$
l(\boldsymbol{\beta} | x)=\prod_{i=1}^{n}\left[\pi\left(x_{i}\right)\right]^{y_{i}}\left[1-\pi\left(x_{i}\right)\right]^{1-y_{i}}
$$
&emsp;&emsp;上式采用对数似然$L(\boldsymbol{\beta} | x)=\operatorname{In}[l(\boldsymbol{\beta} | x)]$的话,计算就能更加方便:
$$
L(\boldsymbol{\beta} | x)=\operatorname{In}[l(\boldsymbol{\beta} | x)]=\sum_{i=1}^{n}\left\{y_{i} \operatorname{In}\left[\pi\left(x_{i}\right)\right]+\left(1-y_{i}\right) \operatorname{In}\left[1-\pi\left(x_{i}\right)\right]\right\}
$$
>&emsp;&emsp;若对极大似然函数不熟悉的话,可以参考:https://blog.csdn.net/qq_39355550/article/details/81809467

&emsp;&emsp;最大似然估计可以通过获得每个参数的 $L(β|x)$获得,并将所得到的结果形式设置为0。遗憾的是,与线性回归不同,无法获得这些结果形式的封闭形式解。因此,需要采用其他方法,例如,迭代加权最小二乘法(可参考McCullagh和Nelder撰写的文献)。

## 4.回归结果解释
&emsp;&emsp;如果我们采用本博客开头使用的数据集,对未知参数 $\beta_0$ 和$\beta_1$进行最大似然估计,有结果:$\beta_{0}=-4.7372, \quad \beta_{1}=0.06696$。因此,对$\pi_{(x)}=\frac{e^{\beta_{0}+\beta_{1} x}}{1+e^{\beta_{0}+\beta_{1} x}}$的估计如下:
$$
\hat{\pi}(x)=\frac{e^{\hat{g}(x)}}{1+e^{\hat{g}(x)}}=\frac{e^{-4.372+0.06696(a g e)}}{1+e^{-4.372+0.06696(a g e)}}
$$
&emsp;&emsp;采用了对数估计的结果:$\hat{g}(x)=-4.372+0.06696(a g e)$。
&emsp;&emsp;这样,我们就能使用此式来估计病人的患病概率。比如,病人年龄为50岁时,有:
$$
\hat{g}(x)=-4.372+0.06696(50)=-1.024
$$
$$
\hat{\pi}(x)=\frac{e^{\hat{g}(x)}}{1+e^{\dot{g}(x)}}=\frac{e^{-1.024}}{1+e^{-1.024}}=0.26
$$
&emsp;&emsp;对于72岁的病人来说:
$$
\hat{g}(x)=-4.372+0.06696(72)=0.449
$$
$$
\pi(x)=\frac{e^{\dot{g}(x)}}{1+e^{\hat{g}(x)}}=\frac{e^{0.449}}{1+e^{0.449}}=0.61
$$
## 5.回归预测的显著性
&emsp;&emsp;当均方回归(mean square regression,MSR)比均方误差(mean squared error,MSE)大时,回归模型被认为是有意义的。(有关这部分的内容可以查看本系列博客的《18 多元回归与模型回归》那一节对此的讲解)
&emsp;&emsp;回想线性回归,如果MSR较大,测试统计$F=\frac{M S R}{M S E}$也将会较大,采用线性回归模型是有意义的。
&emsp;&emsp;logistic回归的系数是否有意义的判断与此类似。本质上说,我们是通过比较包括特定预测因子的模型与不包括该预测因子的模型,检验前者是否对响应变量的拟合程度比后者更好,从而判断其是否有意义的。
&emsp;&emsp;为模型定义全模型(饱和模型)意味着参数与数据点数量一样多,例如,简单的线性回归模型仅包含两个点。显然,全模型能够更完美地预测响应变量,不会产生预测误差。我们将考察全模型中响应变量的观察值和预测值。为比较拟合模型(不含的参数比数据点少)的预测值和全模型的预测值,采用偏差比较方法,偏差定义如下:
$$
\text{Deviance}=D=-\text{2}\ln \left[ \frac{\,\,\text{likelihood of the fitted model }}{\,\,\text{likelihood of the saturated model }} \right]
$$
&emsp;&emsp;公式中包含两个似然的比值,因此结果假设检验被称为似然比率检验。为建立分布是已知的度量,我们必须采用 -2ln[似然比率] ,将来自你和模型的估计 $\pi(x)$定位为$\hat{\pi_i}$。然后,按照logistic回归,利用上个式子,偏差定义为:
$$
\text{Deviance}=D=-2 \ln \sum_{i=1}^{n}\left\{y_{i} \ln \left[\frac{\hat{\pi}_{i}}{y_{i}}\right]+\left(1-y_{i}\right) \ln \left[\frac{1-\hat{\pi}_{i}}{1-y_{i}}\right]\right\}
$$
&emsp;&emsp;偏差表示预测因子计算完成后,模型剩余的误差。类似于线性回归中的误差平方和。
该过程确定某一特定预测因子是否有意义,由没有预测因子的模型的偏差减去包含预测因子的模型的偏差得到,即:
$$
\text{G}=\text{deviance}\left( \text{model without predictor} \right) -\text{deviance}\left( \text{model with predictor} \right) 
\\
=-\text{2}\ln \left[ \frac{\,\,\text{likelihood without predictor }}{\,\,\text{likelihood with predictor }} \right] 
$$
&emsp;&emsp;令$n_{1}=\sum y_{i}$且$n_{0}=\sum\left(1-y_{i}\right)$,则在近包含单一预测因子的情况下,有:
$$
G=2\left\{\sum_{i=1}^{n}\left[y_{i} \ln \left[\hat{\pi}_{i}\right]+\left(1-y_{i}\right) \ln \left[1-\hat{\pi}_{i}\right]\right]-\left[n_{1} \ln \left(n_{1}\right)+n_{0} \ln \left(n_{0}\right)-n \ln (n)\right]\right\}
$$
&emsp;&emsp;如果使用本节的数据集,其对数似然为-10.101,则:
$$
G=2\{-10.101-[7 \ln (7)+13 \ln (13)-20 \ln (20)]\}=5.696
$$

## 6.概率比比率 和 相对风险
&emsp;&emsp;在线性回归之中梯度系数 $\beta_1$ 被解释为作为响应边来那个的对预测单位增加而发生的变化。同样,在逻辑回归中是一样的,只是这是采用的对数的形式。也就是说,梯度系数$\beta_1$可以被解释为预测变量值 每增加一个单位对数变化值。以公式表示如下:
$$
\beta_1 = g(x+1) -g(x)
$$
&emsp;&emsp;在上例分析之中,我们已然明白二分变量使用逻辑回归之后的意义。比如,我们知道72岁的人患病概率有61%,未患病概率比有39%,则其患病概率比为$odds =\frac{0.61}{0.39}=1.56$;而50岁的人患病概率为26%,未患病74%,则概率比为$odds =\frac{0.26}{0.74}=0.35$。
&emsp;&emsp;我们可以发现,当一件事的发生概率大于不发生概率的时候,$odds>1$;而发生概率小于不发生概率时,$odds<1$。于此,我们可以多注意一下**概率**与**概率比**的不同,概率的取值范围在0~1之间,而概率比的范围在$\text{0~}\infty $之间。
&emsp;&emsp;对于记录 $x=1$ 的情况,响应的概率比为:
$$
\frac{\pi(1)}{1-\pi(1)}=\frac{\frac{e^{\beta_{0}+\beta_{1}}}{1+e^{\beta_{0}+\beta_{1}}}}{\frac{1}{1+e^{\beta_{0}+\beta_{1}}}}=e^{\beta_{0}+\beta_{1}}
$$
&emsp;&emsp;同理,对于记录 $x=0$的情况,响应的概率比为:
$$
\frac{\pi(0)}{1-\pi(0)}=\frac{\frac{e^{\beta_{0}}}{1+e^{\beta_{0}}}}{\frac{1}{1+e^{\beta_{0}}}}=e^{\beta_{0}}
$$
&emsp;&emsp;清楚了上面的含义,我们引入概念:**概率比比例(odds ratio)**:定义为当记录 $x=1$ 时,响应变量发生(y=1)的概率比与当记录在 $x=0$ 时响应变量发射功能的概率比的比值。用公式表达:
$$
\begin{aligned} \text { Odds ratio }=\mathrm{OR} &=\frac{\pi(1) /(1-\pi(1)]}{\pi(0) /(1-\pi(0)]} \\ &=\frac{e^{\beta_{0}+\beta_{1}}}{e^{\beta_{0}}} \\ &=e^{\beta_{1}} \end{aligned}
$$
&emsp;&emsp;通常,我们为了使概率比比例OR能够准确地估计相对风险,我们必须使$\frac{[1-\pi(0)]}{[1-\pi(1)]} \approx 1$, $x=1$ 和$x=0$,响应发生可能性小的时候可能性小的时候可得到OR值。
$$
Relative risk=\frac{\pi(1)}{\pi(0)}
$$
概率比比率在研究领域被广泛应用,因为它简略地表达了概率比比率与梯度系数之间的关系。例如,假如某个临床试验报告表明在患子宫内膜癌的患者中使用过雌激素替代疗法的与未使用雌激素替代疗法的概率比比率为5.0,则可以解释为,平均来说,采用雌激素替代疗法的病人患子宫内膜癌的可能性是未使用雌激素替代疗法的病人的5倍。然而,这一解释仅在 $\frac{[1-\pi(0)]}{[1-\pi(1)]} \approx 1$ 时有效。
<font color=#66ccff>(记得查看书P360 13.6节,是例子。)</font>
&emsp;&emsp;剩下的章节没有写嗯。。


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值