一. 推导LR损失函数
1.通过对数似然函数来取得参数 w w w
二分类,标签设置为 y1=1,y0=0,有m个样本。
L ( w ) = ∏ i m f w ( x 1 ) ⋅ f w ( x 2 ) ⋅ ( 1 − f w ( x 3 ) ) . . . f w ( x m ) L(w)=\prod_{i}^{m}f_w(x_1)\cdot f_w(x_2)\cdot(1-f_w(x_3))...f_w(x_m) L(w)=∏imfw(x1)⋅fw(x2)⋅(1−fw(x3))...fw(xm)
w ∗ = a r g m a x w L ( w ) w^*=argmax_{w}L(w) w∗=argmaxwL(w)
经过取对数取反得到
− l n L ( w ) = − ∑ i m y i l n ( f ( w i ) ) + ( 1 − y i ) l n ( 1 − f ( w i ) ) -lnL(w)=-\sum _{i}^{m}y_iln(f(w_i))+(1-y_i)ln(1-f(w_i)) −lnL(w)=−∑imyiln(f(wi))+(1−yi)ln(1−f(wi))
2.交叉熵得到LR损失函数
二. LR梯度下降
Softmax原理
个人理解是,计算出样本属于不同类别的概率,然后进行归一化,选出概率最大的为分类类别
具体的原理待补。