逻辑回归其实就是一个判别模型,什么意思呢?也就是给定一组数据我们将其判别它属于某一类的概率,或者判别好坏,也就是 p ( y ∣ x ) p(y|x) p(y∣x)对于这样的模型我们首先想到的是 p ( y ∣ x ) = w T x + b p(y|x)=w^Tx+b p(y∣x)=wTx+b但是我们可以清楚地看到公式并不成立: 0 ≤ p ( y ∣ x ) ≤ 1 0\leq p(y|x)\leq1 0≤p(y∣x)≤1还有 ∑ y p ( y ∣ x ) = 1 \sum_yp(y|x)=1 ∑yp(y∣x)=1这两个条件并不满足,因此我们将公式转变一下:利用 y = 1 1 + e x y=\dfrac{1}{1+e^x} y=1+ex1也就是 σ ( x ) \sigma(x) σ(x)也就是:
p ( y ∣ x ; w ) = σ ( w T x + b ) = 1 1 + e − ( w T x + b ) p(y|x;w)=\sigma(w^Tx+b)=\dfrac{1}{1+e^{-(w^Tx+b)}} p(y∣x;w)=σ(wTx+b)=1+e−(wTx+b)1
这个时候我们的目标函数就可以满足概率的形式啦
假设我们现在做一个二分类的问题那么公式可以转化为:
p ( y = 1 ∣ x ; w ) = 1 1 + e − ( w T x + b ) p(y=1|x;w)=\dfrac{1}{1+e^{-(w^Tx+b)}} p(y=1∣x;w)=1+e−(wTx+b)1
p ( y = 0 ∣ x ; w ) = 1 − p ( y = 1 ∣ x ; w ) = 1 − 1 1 + e − ( w T x + b ) = e − ( w T x + b ) 1 + e − ( w T x + b ) p(y=0|x;w)=1-p(y=1|x;w)=1-\dfrac{1}{1+e^{-(w^Tx+b)}}=\dfrac{e^{-(w^Tx+b)}}{1+e^{-(w^Tx+b)}} p(y=0∣x;w)=1−p(y=1∣x;w)=1−1+e−(wTx+b)1=1+e−(wTx+b)e−(wTx+b)
也就是如果标签为1我们就最大化 p ( y = 1 ∣ x ; w ) p(y=1|x;w) p(y=1∣x;w)然后最小化 p ( y = 0 ∣ x ; w ) p(y=0|x;w) p(y=0∣x;w)因此我们将两个公式合并为:
p ( y ∣ x ; w ) = p ( y = 1 ∣ x ; w ) y ⋅ [ 1 − p ( y = 0 ∣ x ; w ) ] 1 − y p(y|x;w)=p(y=1|x;w)^y\cdot[1-p(y=0|x;w)]^{1-y} p(y∣x;w)=p(y=1∣x;w)y⋅[1−p(y=0∣x;w)]1−y
因此给定数据集 D { ( x i , y i ) } , x i ∈ R d y i ∈ { 0 , 1 } D\{(x_i,y_i)\},x_i\in R^d\quad y_i\in \{0,1\} D{ (xi,yi)},xi∈<