01 - LR公式推导

参考于逻辑回归 logistics regression 公式推导

1. 线性回归

f ( x ) = w T x + b f(x) = w^Tx + b f(x)=wTx+b

消灭常数项

f ( x ) = w T x f(x) = w^Tx f(x)=wTx

2. 逻辑回归模型函数

σ ( x ) = 1 1 + e − x \sigma(x) = \frac{1}{1 + e^{-x}} σ(x)=1+ex1

y = σ ( f ( x ) ) = σ ( w T x ) = 1 1 + e − w T x y = \sigma(f(x)) = \sigma(w^Tx) = \frac{1}{1 + e^{-w^Tx}} y=σ(f(x))=σ(wTx)=1+ewTx1

3. 逻辑回归损失函数

P y = 1 = 1 1 + e − w T x = p P_{y=1} = \frac{1}{1 + e^{-w^Tx}} = p Py=1=1+ewTx1=p

P ( y ∣ x ) = { p , y = 1 1 − p , y = 0 P(y|x) = \begin{cases} p, y=1 \\ 1-p,y=0 \end{cases} P(yx)={p,y=11p,y=0
等价于
P ( y i ∣ x i ) = p y i ( 1 − p ) 1 − y i P(y_i|x_i) = p^{y_i}(1-p)^{1-y^i} P(yixi)=pyi(1p)1yi
有N组数据 ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) , ( x 4 , y 4 ) . . . . . . ( x N , y N ) {(x_1,y_1), (x_2,y_2), (x_3,y_3),(x_4,y_4)......(x_N,y_N)} (x1,y1),(x2,y2),(x3,y3),(x4,y4)......(xN,yN),合在一起的合事件的概率

P 总 = P ( y 1 ∣ x 1 ) P ( y 2 ∣ x 2 ) P ( y 3 ∣ x 3 ) . . . . . . P ( y N ∣ x N ) = ∏ n = 1 N p y n ( 1 − p ) 1 − y n P_{总}=P(y_1|x_1)P(y_2|x_2)P(y_3|x_3)......P(y_N|x_N)\\ =\prod_{n=1}^{N}p^{y_n}(1-p)^{1-y_n} P=P(y1x1)P(y2x2)P(y3x3)......P(yNxN)=n=1Npyn(1p)1yn

F ( w ) = l n ( P 总 ) = l n ( ∏ n = 1 N p y n ( 1 − p ) 1 − y n ) = ∑ n = 1 N l n ( p y n ( 1 − p ) 1 − y n ) = ∑ n = 1 N ( y n l n ( p ) + ( 1 − y n ) l n ( 1 − p ) ) F(w) = ln(P_{总}) = ln(\prod_{n=1}^{N}p^{y_n}(1-p)^{1-y_n}) \\ = \sum_{n=1}^{N}ln(p^{y_n}(1-p)^{1-y_n}) \\ = \sum_{n=1}^{N}(y_nln(p)+(1-y_n)ln(1-p)) F(w)=ln(P)=ln(n=1Npyn(1p)1yn)=n=1Nln(pyn(1p)1yn)=n=1N(ynln(p)+(1yn)ln(1p))

损失函数是当前模型的输出结果跟实际输出结果之间的差距。这里的损失函数值的等于事件发生的总概率。我们期待损失函数的值最大。

4. 最大似然估计

F ( w ) F(w) F(w) 正比于 P 总 P_总 P F ( w ) F(w) F(w) 只有一个变量 w w w,改变 w w w 的值可以得到不同的 P 总 P_总 P,当我们选取的 w ∗ w^* w 刚好使 P 总 P_总 P最大,

就求到了 w w w的值 w ∗ w^* w
w ∗ = arg ⁡ max ⁡ w F ( w ) = − arg ⁡ min ⁡ w F ( x ) w^* = \arg\max_{w}F(w) = -\arg\min_{w}F(x) w=argwmaxF(w)=argwminF(x)

5. 梯度推导

p ′ = p ( 1 − p ) x p^{'} =p(1-p)x p=p(1p)x

( 1 − p ) ′ = − p ( 1 − p ) x (1-p)^{'} = -p(1-p)x (1p)=p(1p)x

Δ F ( w ) = ∑ n = 1 N ( y n − p ) x n = ∑ n = 1 N ( y n − 1 1 + e − w T x n ) x n \Delta F(w) = \sum_{n=1}^{N}(y_n-p)x_n \\ = \sum_{n=1}^{N}(y_n-\frac{1}{1 + e^{-w^Tx_{n}}})x_n ΔF(w)=n=1N(ynp)xn=n=1N(yn1+ewTxn1)xn

6. 梯度下降

w t + 1 = w t + η Δ F ( w ) w_{t+1} = w_t + \eta\Delta F(w) wt+1=wt+ηΔF(w)

η \eta η为步长,学习率。

逻辑回归的损失函数是连续凸函数,只有一个全局最优点。

梯度下降使用可所有的样本点。所有的样本都参与梯度计算。

7. 随机梯度下降

随机梯度下降选择随机选择一个样本,用于代表整体,然后乘以N
w t + 1 = w t + η N ( y i − 1 1 + e − w T x i ) w_{t+1} = w_t + \eta N(y_i - \frac{1}{1 + e^{-w^Tx_i}}) wt+1=wt+ηN(yi1+ewTxi1)
η \eta η 和 N 合并
w t + 1 = w t + η ( y i − 1 1 + e − w T x i ) w_{t+1} = w_t + \eta (y_i - \frac{1}{1 + e^{-w^Tx_i}}) wt+1=wt+η(yi1+ewTxi1)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值