逻辑回归笔记

逻辑回归

  • 逻辑回归属于一个二分类器

    • sigmoid函数 s= σ ( ω T x + b ) \sigma(\omega ^T x+b) σ(ωTx+b)= σ ( ω 1 x 1 + ω 2 x 2 + ω 3 x 3... ω n x n + b ) \sigma(\omega 1x1+\omega 2x2+\omega 3x3...\omega nxn+b) σ(ω1x1+ω2x2+ω3x3...ωnxn+b)= σ ( z ) \sigma(z) σ(z) = 1 1 + e − z \frac1 {1+e^{-z}} 1+ez1
      在这里插入图片描述
  • 如果sigmoid函数 e − z e^{-z} ez z越大结果越趋近于1 ,z越小越趋近于0

  • 损失函数 L ( y ^ − y ) = 1 2 ( y ^ − y ) 2 L(\hat{y}-y)=\frac12(\hat{y}-y)^2 L(y^y)=21(y^y)2 会陷入多个局部最小点因此逻辑回归不用它

  • 逻辑回归损失函数一般用 L ( y ^ − y ) = − ( y l o g y ^ ) − ( 1 − y ) l o g ( 1 − y ^ ) L(\hat{y}-y)=-(ylog\hat{y})-(1-y)log(1-\hat{y}) L(y^y)=(ylogy^)(1y)log(1y^)

    • 如果y=1,损失为-log y ^ \hat{y} y^,那么想要损失值越小 y ^ \hat{y} y^的值必须越大 即越趋近或者等于1
    • 如果y=0,损失为-log y ^ \hat{y} y^,那么想要损失值越小 y ^ \hat{y} y^的值必须越小 即越趋近或者等于0
    • 因为数据一般是多维的应该求所有损失值的平均值,训练全体样本的公式为 J ( w , b ) = 1 m ∑ i = 1 m L ( y ^ ( i ) , y ( i ) ) J(w,b)=\frac1m\sum_{i=1}^m{L(\hat{y}^{(i)},y^{(i)})} J(w,b)=m1i=1mL(y^(i),y(i))
  • 二分类问题
    p ( y = 1 ∣ x , w ) = 1 1 + e ( − w T x + b ) p(y=1|x,w)=\frac{1}{1+e^(-w^Tx+b)} p(y=1xw)=1+e(wTx+b)1

    p ( y = 0 ∣ x , w ) = e − w T x + b 1 + e − w T x + b p(y=0|x,w)=\frac{e^{-w^Tx+b}}{1+e^{-w^Tx+b}} p(y=0xw)=1+ewTx+bewTx+b

  • 对两个公式进行合并
    p ( y ∣ x , w ) = p ( y = 1 ∣ x , w ) y [ 1 − p ( y = 0 ∣ x , w ) 1 − y ] p(y|x,w)=p(y=1|x,w)^y[1-p(y=0|x,w)^{1-y}] p(yxw)=p(y=1xw)y[1p(y=0xw)1y]

  • 证明逻辑回归是线性分类器
    e − w T x + b = 1 e^{-w^Tx+b}=1 ewTx+b=1 两边同时加上log得出 -wx+b=0所以为线性分类

    • 最大释然估计,最大化目标函数,进行逻辑回归目标函数的推导
      w ^ M L E , w ^ M L E = a r g m a x ∏ i = 1 n p ( y i ∣ x i , w , b ) \hat{w}_{MLE},\hat{w}_{MLE}=argmax\prod_{i=1}^n{p(y_i|x_i,w,b)} w^MLE,w^MLE=argmaxi=1np(yixi,w,b)
      = a r g m a x l o g ( ∏ i = 1 n p ( y i ∣ x i , w , b ) ) =argmax log(\prod_{i=1}^n{p(y_i|x_i,w,b)}) =argmaxlog(i=1np(yixi,w,b))
      = a r g m a x ∑ i = 1 n l o g p ( y i ∣ x i , w , b ) =argmax\sum_{i=1}^nlog p(y_i|x_i,w,b) =argmaxi=1nlogp(yixi,w,b)
      = a r g m i n − ∑ i = 1 n l o g p ( y i ∣ x i , w , b ) =argmin -\sum_{i=1}^nlog p(y_i|x_i,w,b) =argmini=1nlogp(yixi,w,b)
      = a r g m i n − ∑ i = 1 n l o g [ p ( y i = 1 ∣ x i , w , b ) y ] ∗ [ 1 − p ( y i = 1 ∣ x i , w , b ) 1 − y ] =argmin -\sum_{i=1}^nlog [p(y_i=1|x_i,w,b)^y]*[1-p(y_i=1|x_i,w,b)^{1-y}] =argmini=1nlog[p(yi=1xi,w,b)y][1p(yi=1xi,w,b)1y]
      = a r g m i n − ∑ i = 1 n l o g [ y ∗ p ( y i = 1 ∣ x i , w , b ) ] + ( 1 − y ) ∗ [ 1 − p ( y i = 1 ∣ x i , w , b ) ] =argmin -\sum_{i=1}^nlog [y*p(y_i=1|x_i,w,b)]+(1-y)*[1-p(y_i=1|x_i,w,b)] =argmini=1nlog[yp(yi=1xi,w,b)]+(1y)[1p(yi=1xi,w,b)]
      = a r g m i n − ∑ i = 1 n l o g y ∗ σ ( ω T x + b ) + ( 1 − y ) ∗ [ 1 − σ ( ω T x + b ) ] =argmin -\sum_{i=1}^nlog y*\sigma(\omega ^T x+b)+(1-y)*[1-\sigma(\omega ^T x+b)] =argmini=1nlogyσ(ωTx+b)+(1y)[1σ(ωTx+b)]
    • 进行求导 推出梯度下降
      θ ( ω , b ) θ ω = − ∑ i = 1 n l o g y ∗ σ ( ω T x + b ) ∗ [ 1 − σ ( ω T x + b ) ] σ ( ω T x + b ) ∗ x i + ( 1 − y ) ∗ − σ ( ω T x + b ) ∗ [ 1 − σ ( ω T x + b ) ] 1 − σ ( ω T x + b ) ∗ x i \frac{\theta(\omega ,b)}{\theta_\omega}=-\sum_{i=1}^nlog y*\frac{\sigma(\omega ^T x+b)*[1-\sigma(\omega ^T x+b)]}{\sigma(\omega ^T x+b)}*x_i+(1-y)*\frac{-\sigma(\omega ^T x+b)*[1-\sigma(\omega ^T x+b)]}{1-\sigma(\omega ^T x+b)}*x_i θωθ(ω,b)=i=1nlogyσ(ωTx+b)σ(ωTx+b)[1σ(ωTx+b)]xi+(1y)1σ(ωTx+b)σ(ωTx+b)[1σ(ωTx+b)]xi
      = − ∑ i = 1 n y i ( 1 − σ ( ω T x + b ) ) x i + ( y − 1 ) ∗ σ ( ω T x + b ) ) x i =-\sum_{i=1}^ny_i(1-\sigma(\omega ^T x+b))x_i+(y-1)*\sigma(\omega ^T x+b))x_i =i=1nyi(1σ(ωTx+b))xi+(y1)σ(ωTx+b))xi
      = − ∑ i = 1 n y i − σ ( ω T x + b ) x i =-\sum_{i=1}^n y_i-\sigma(\omega ^T x+b)x_i =i=1nyiσ(ωTx+b)xi
      = ∑ i = 1 n [ σ ( ω T x + b ) − y i ] x i =\sum_{i=1}^n[\sigma(\omega ^T x+b)-y_i]x_i =i=1n[σ(ωTx+b)yi]xi

    θ ( ω , b ) θ b = − ∑ i = 1 n l o g y ∗ σ ( ω T x + b ) ∗ [ 1 − σ ( ω T x + b ) ] σ ( ω T x + b ) + ( 1 − y ) ∗ − σ ( ω T x + b ) ∗ [ 1 − σ ( ω T x + b ) ] 1 − σ ( ω T x + b ) \frac{\theta(\omega ,b)}{\theta_b}=-\sum_{i=1}^nlog y*\frac{\sigma(\omega ^T x+b)*[1-\sigma(\omega ^T x+b)]}{\sigma(\omega ^T x+b)}+(1-y)*\frac{-\sigma(\omega ^T x+b)*[1-\sigma(\omega ^T x+b)]}{1-\sigma(\omega ^T x+b)} θbθ(ω,b)=i=1nlogyσ(ωTx+b)σ(ωTx+b)[1σ(ωTx+b)]+(1y)1σ(ωTx+b)σ(ωTx+b)[1σ(ωTx+b)]
    = − ∑ i = 1 n y i ( 1 − σ ( ω T x + b ) ) + ( y − 1 ) ∗ σ ( ω T x + b ) ) =-\sum_{i=1}^ny_i(1-\sigma(\omega ^T x+b))+(y-1)*\sigma(\omega ^T x+b)) =i=1nyi(1σ(ωTx+b))+(y1)σ(ωTx+b))
    = − ∑ i = 1 n y i − σ ( ω T x + b ) =-\sum_{i=1}^n y_i-\sigma(\omega ^T x+b) =i=1nyiσ(ωTx+b)
    = ∑ i = 1 n [ σ ( ω T x + b ) − y i ] =\sum_{i=1}^n[\sigma(\omega ^T x+b)-y_i] =i=1n[σ(ωTx+b)yi]

    • 梯度下降
      初始化 w ‘ , b ‘ w^`,b^` w,b
      for t=1,2,3…
      w ‘ = w t − θ ∑ i = 1 n [ σ ( ω T x + b ) − y i ] x i w^`=w^t-\theta\sum_{i=1}^n[\sigma(\omega ^T x+b)-y_i]x_i w=wtθi=1n[σ(ωTx+b)yi]xi
      b ‘ = w t − θ ∑ i = 1 n [ σ ( ω T x + b ) − y i ] b^`=w^t-\theta\sum_{i=1}^n[\sigma(\omega ^T x+b)-y_i] b=wtθi=1n[σ(ωTx+b)yi]
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值