LR(逻辑斯谛)公式推导

  1. 一个事件的几率(odds)= 事 件 发 生 的 概 率 事 件 不 发 生 的 概 率 \frac {事件发生的概率}{事件不发生的概率} = p 1 − p \frac{p}{1-p} 1pp

  2. 该事件的对数几率(log odds)或logit函数是 l o g i t ( p ) = l o g p 1 − p logit(p)=log^{\frac{p}{1-p}} logit(p)=log1pp

  3. 输出 y ( i ) = 1 y^(i)=1 y(i)=1的多数几率是由输入x的线性函数表示的模型,即逻辑斯谛回归模型。

    (逻辑斯谛回归模型可以将线性函数w·x转换为概率)

p ( y ( i ) = 1 ∣ x ) = 1 1 + e − w T x p(y^{(i)}=1|x)=\frac{1}{1+e^{-w^Tx}} p(y(i)=1x)=1+ewTx1

参 数 w = [ w ( 1 ) , w ( 2 ) , . . . w ( n ) , b ] T , 输 入 x = [ x ( 1 ) , x ( 2 ) , . . . x ( n ) , 1 ] T 参数w=[w^{(1)},w^{(2)},...w^{(n)},b]^T,输入x=[x^{(1)},x^{(2)},...x^{(n)},1]^T w=[w(1),w(2),...w(n),b]T,x=[x(1),x(2),...x(n),1]T


  1. 正 例 ( y = 1 ) : P ( y = 1 ∣ x ) = p 反 例 ( y = 0 ) : P ( y = 0 ∣ x ) = 1 − p 函 数 合 二 为 一 : P ( y i ∣ x i ) = p y i ( 1 − p ) 1 − y i ( 当 y i = 1 , 结 果 是 p ; 当 y i = 0 , 结 果 是 1 − p ) 。 正例(y=1):P(y=1|x)=p\\ 反例(y=0):P(y=0|x)=1- p\\ 函数合二为一:P(y_i|x_i)=p^{y_i}(1-p)^{1-y_i}\\ (当y_i=1,结果是p;当y_i=0,结果是1-p)。 (y=1):P(y=1x)=p(y=0):P(y=0x)=1pP(yixi)=pyi(1p)1yiyi=1pyi=01p

  2. 似然函数
    ∏ n = 1 N p y n ( 1 − p ) 1 − y n \prod_{n=1}^Np^{y_n}(1-p)^{1-y_n} n=1Npyn(1p)1yn
    对数似然函数:
    L ( w ) = l n P 总 = l n ( ∏ n = 1 N p y n ( 1 − p ) 1 − y n ) = ∑ n = 1 N l n ( p y n ( 1 − p ) 1 − y n ) = ∑ n = 1 N ( y n l n p + ( 1 − y n ) l n 1 − p ) 其 中 , p = 1 1 + e − w T x L_{(w)}=ln^{P_总}=ln^{(\prod^{N}_{n=1}p^{y_n}(1-p)^{1-y_n})}\\ =\sum^N_{n=1}ln^{(p^{y_n}(1-p)^{1-y_n})}\\ =\sum^N_{n=1}(y_nln^p+(1-y_n)ln^{1-p})\\ 其中,p=\frac{1}{1+e^{-w^Tx}} L(w)=lnP=ln(n=1Npyn(1p)1yn)=n=1Nln(pyn(1p)1yn)=n=1N(ynlnp+(1yn)ln1p)p=1+ewTx1
    L w L_{w} Lw求极大值,得到w的估计值。

    这样,问题就变成了以对数似然函数为目标函数的最优化问题。

  3. ∵ p = 1 1 + e − θ , θ = w T x 其 中 参 数 w = [ w ( 1 ) , w ( 2 ) , . . . w ( n ) , b ] T , 输 入 x = [ x ( 1 ) , x ( 2 ) , . . . x ( n ) , 1 ] T \because p=\frac{1}{1+e^{-\theta}},\theta=w^Tx\\其中参数w=[w^{(1)},w^{(2)},...w^{(n)},b]^T,输入x=[x^{(1)},x^{(2)},...x^{(n)},1]^T\\ p=1+eθ1,θ=wTxw=[w(1),w(2),...w(n),b]T,x=[x(1),x(2),...x(n),1]T

    ∂ L ( w ) ∂ w j = ∑ i = 1 N ( y ( i ) 1 p ∂ p ∂ θ ∂ θ ∂ w j ) + ( 1 − y ( i ) ) 1 1 − p ( − 1 ) ∂ p ∂ θ ∂ θ ∂ w j ) < 1 > ∂ p ∂ θ = ∂ ∂ θ 1 [ 1 + e − θ ] = 1 ( 1 + e − θ ) ( 1 − 1 ( 1 + e − θ ) ) = p ( 1 − p ) < 2 > ∂ θ ∂ w j = ∂ ∂ w j [ w T x ] = x j < 3 > \frac{\partial_{L_{(w)}}}{\partial_{w_j}}=\sum^N_{i=1}(y^{(i)}\frac{1}{p}\frac{\partial_p}{\partial_\theta}\frac{\partial_\theta}{\partial_{w_j}})+(1-y^{(i)})\frac{1}{1-p}(-1)\frac{\partial_p}{\partial_\theta}\frac{\partial_\theta}{\partial_{w_j}}) <1>\\ \frac{\partial_p}{\partial_\theta}=\frac{\partial}{\partial_\theta}\frac{1}{[1+e^{-\theta}]}=\frac{1}{(1+e^{-\theta})}(1-\frac{1}{(1+e^{-\theta})})=p(1-p)<2>\\ \frac{\partial_\theta}{\partial_{w_j}}=\frac{\partial}{\partial_{w_j}}[w^Tx]=x_j<3>\\ wjL(w)=i=1N(y(i)p1θpwjθ)+(1y(i))1p1(1)θpwjθ)<1>θp=θ[1+eθ]1=(1+eθ)1(1(1+eθ)1)=p(1p)<2>wjθ=wj[wTx]=xj<3>

    将 < 3 > < 2 > 代 入 < 1 > 中 ∂ L ( w ) ∂ w j = ∑ i = 1 N ( y ( i ) 1 p p ( 1 − p ) x j + ( 1 − y ( i ) ) 1 1 − p ( − 1 ) p ( 1 − p ) x j ) = ∑ i = 1 N ( y ( i ) − p ) x j 将<3><2>代入<1>中\\ \frac{\partial_{L_{(w)}}}{\partial_{w_j}}=\sum^N_{i=1}(y^{(i)}\frac{1}{p}p(1-p)x_j+(1-y^{(i)})\frac{1}{1-p}(-1)p(1-p)x_j)\\ =\sum^N_{i=1}(y^{(i)}-p)x_j <3><2><1>wjL(w)=i=1N(y(i)p1p(1p)xj+(1y(i))1p1(1)p(1p)xj)=i=1N(y(i)p)xj

  4. 利用梯度下降法求解目标函数的最大值

    给定训练步长和初始值 w w w,迭代收敛

    更新规则

w j = w j + α ∇ L ( w ) 而 ∇ L ( w ) = ∂ L ( w j ) ∂ w j = ( y ( i ) − p ) x j w_j=w_j+\alpha\nabla L_{(w)}\\ 而\nabla L_{(w)}=\frac{\partial L_{(w_j)}}{\partial_{w_j}}=(y^{(i)}-p)x_j wj=wj+αL(w)L(w)=wjL(wj)=(y(i)p)xj

  1. repeat until:converge

    for i = 1 to N{

    θ j = θ j + α [ y ( i ) − p ] x j ( i ) \theta_j=\theta_j+\alpha[y^{(i)}-p]x_j^{(i)} θj=θj+α[y(i)p]xj(i)

    }
    注:参考了李航老师著的《统计学习方法》

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值