Logistic回归又称Logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。
应用:
一、寻找危险因素,正如上面所说的寻找某一疾病的危险因素等。
二、预测,如果已经建立了Logistic回归模型,则可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。
三、判别,实际上跟预测有些类似,也是根据Logistic模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。
这是Logistic回归最常用的三个用途,实际中的Logistic回归用途是极为广泛的,Logistic回归几乎已经成了流行病学和医学中最常用的分析方法,因为它与多重线性回归相比有很多的优势。
首先,我们先来看一下Logistic回归的学习过程:
Logistic回归经常应用在病情预测的问题里面。假设给出一位病人的相关信息,那么我们应该如何预测他将来出现心脏病的可能性呢?
如果我们已经能够拥有了一些资料,那么我们就会轻易算出相应的概率:
但是实际上,在大多数情况下,我们不能够事先拥有这些数据,于是乎我们必须经过抽样等手段,把对应的圈圈叉叉的资料对应成相应的概率。
对应于上面提到的预测心脏病发生概率的例子,我们可以根据对应特征值
然后将s转化成Logistic函数 θ(s) :
函数图像如图所示:
特别地, θ(0)=12,s=wTx ,函数图像为“S”型曲线。
接下来,我们将会来定义Logistic回归的错误度量。
在线性分类器中,错误的情况不是正确就是错误(0、1):
在线性回归分析中,错误的偏差值是偏离距离的平方值:
那么在Logistic回归中,我们该如何定义呢?
因为
f(x)=P(+1|x)
,所以
又由于函数性质可知:
⇓
⇓
⇓
⇓
⇓
⇓
⇓
要想求得 Ein(w) 取最小值,那么对应的梯度应该为0,即 ∇Ein(w)=0
令 =0
初始化 w0 ,t=0,1,2,3,4…..
(1)计算,然后用
不断更新,代入上式计算,直到
∇Ein(wt+1)=0
或者最后返回
wt+1
作为函数g。
在这过程之中,
η
<script type="math/tex" id="MathJax-Element-48">η</script>的取值也很关键,如果,取值过大,函数图像就会出现震荡。
如果,取值过小,迭代过程又会变得漫长。
只有取值恰当,才会尽可能快的求出最优解。