为什么交叉熵的梯度公式跟最小二乘法一样?

引言

之前一致不明白,为什么交叉熵损失函数在进行梯度计算的时候的公式跟最小二乘是一致的。抱着这样的疑问,我对交叉熵损失函数进行的偏微分,进行验证。

正文

最小二乘法损失函数

J ( θ ) = 1 2 m ∑ i m ( h ( x i ) − y i ) 2 J(\theta)=\frac{1}{2m}\sum_i^m(h(x^i)-y^i)^2 J(θ)=2m1im(h(xi)yi)2

此时 h ( x ) = w x + b h(x)=wx+b h(x)=wx+b,所以

∂ J ( θ ) ∂ θ j = 1 m ∑ i m ( h ( x i ) − y i ) x j i \frac{\partial J(\theta)}{\partial \theta_j}=\frac{1}{m}\sum_i^m(h(x^i)-y^i)x_j^i θjJ(θ)=m1im(h(xi)yi)xji

交叉熵损失函数

J ( θ ) = − ∑ i = 1 m ( y i l o g 2 h ( x i ) + ( 1 − y i ) l o g 2 1 − h ( x i ) ) J(\theta)=-\sum_{i=1}^m(y_ilog_2^{h(x^i)}+(1-y_i)log_2^{1-h(x^i)}) J(θ)=i=1m(yilog2h(xi)+(1yi)log21h(xi))

此时 h ( x ) = 1 1 + e − w T x h(x)=\frac{1}{1+e^{-w^Tx}} h(x)=1+ewTx1 h ′ ( x ) = h ( x ) ( 1 − h ( x ) ) h'(x)=h(x)(1-h(x)) h(x)=h(x)(1h(x))。所以

∂ J ( θ ) ∂ θ j = − 1 m ∑ i = 1 m [ y i 1 h ( x i ) h ′ ( x i ) + ( 1 − y i ) 1 1 − h ( x i ) ⋅ − h ′ ( x i ) ] = − 1 m ∑ i = 1 m [ y i ( 1 − h ( x i ) ) x j i − ( 1 − y i ) h ( x i ) x j i ] = 1 m ∑ i m ( h ( x i ) − y i ) x j i \frac{\partial J(\theta)}{\partial \theta_j}=-\frac{1}{m}\sum_{i=1}^m[y^i\frac{1}{h(x^i)}h'(x^i)+(1-y^i)\frac{1}{1-h(x^i)}·-h'(x^i)] \newline =-\frac{1}{m}\sum_{i=1}^m[y^i(1-h(x^i))x_j^i-(1-y^i)h(x^i)x_j^i]\newline=\frac{1}{m}\sum_i^m(h(x^i)-y^i)x_j^i θjJ(θ)=m1i=1m[yih(xi)1h(xi)+(1yi)1h(xi)1h(xi)]=m1i=1m[yi(1h(xi))xji(1yi)h(xi)xji]=m1im(h(xi)yi)xji

其中 x j i x_j^i xji j j j代表样本 x i x^i xi的第 j j j个特征。 m m m表示样本总数。

总结

所以它们两者进行梯度下降时的公式一致的核心原因就在于,目标函数 h ( x ) h(x) h(x)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

这一炉能成

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值