逻辑回归(Logistics Regression)的目的其实是分类,它的本质是一种二分类方法。
1 Sigmoid 函数
逻辑回归的思想其实非常巧妙,既然我们希望做二分类,那就令这两类的标签为 { 0 , 1 } \{0,1\} { 0,1}(这里令1为正例,0为负例),对所有的样本 x x x,令 x x x 用来分类的变换值为 z z z (通常 z = w T x + b z=w^Tx+b z=wTx+b),令 y y y 为样本 x x x 为正例的可能性,那么我们肯定希望找到一个这样的函数 f : z → y f: z \rightarrow y f:z→y,使得标签为 0 的样本,其 z z z 值经过这个函数计算后得到的预测值越接近于0越好,而对于标签为 1 的样本,其 z z z 值经过这个函数计算后得到的预测值越接近于1越好。
Sigmoid 函数就满足这些特点,它的函数为:
y = 1 1 + e − z y=\frac{1}{1+e^{-z}} y=1+e−z1
变化曲线如下图所示:
【图1 Sigmoid变化曲线图】
从图中可以看出,该函数形似S,因此名为 Sigmoid 函数,将它用于二分类有如下优点:
(1)当 z z z 值趋近于负无穷时, y y y 值趋近于0:也就是说, z z z 值越趋近于负无穷,该样本标签为0的概率越大;
(2)当 z z z 值趋近于正无穷时, y y y 值趋近于1:也就是说, z z z 值越趋近于正无穷,该样本标签为1的概率越大;
(3)函数单调连续, y ∈ ( 0 , 1 ) y\in(0,1) y∈(0,1): z z z 的预测值只可能是 0 或者1,当 z < 0 z<0 z<0 时,预测标签为0,当 z > 0 z>0 z>0 时,预测标签为1,当 z = 0 z=0 z=0 时,预测标签为0或1都可;
(4)函数在 z = 0 z=0 z=0 附近变化极陡:根据以上几点可知, ∣ f ( z ) − 0.5 ∣ |f(z)-0.5| ∣f(z)−0.5∣ 越小,则对该样本预测的标签的把握就越小,函数在 z = 0 z=0 z=0 附近变化很陡,就使得 z z z 的不确定区域很小;
(5)该函数是可微的,这对后面的参数求解是有益的。
2 逻辑回归(Logistics Regression)
将 z = w T x + b z=w^Tx+b z=wTx+b 代入Sigmoid函数,有:
y = 1 1 + e − ( w T x + b ) y=\frac{1}{1+e^{-(w^Tx+b)}} y=1+e−(wTx+b)1
则
1 − y = e − ( w T x + b ) 1 + e − ( w T x + b ) 1-y=\frac{e^{-(w^Tx+b)}}{1+e^{-(w^Tx+b)}} 1−y=1+e−(wTx+b)e−(wTx+b)
两式相除则有:
y 1 − y = 1 e − ( w T x + b ) \frac{y}{1-y}=\frac{1}{e^{-(w^Tx+b)}} 1−yy=e−(wTx+b)1
两边取对数,有:
ln