【机器学习-11】 逻辑回归的-交叉熵损失函数

逻辑回归交叉熵损失函数梯度推导

【机器学习-11】 逻辑回归的交叉熵损失函数

梯度下降的求导过程是针对逻辑回归的交叉熵损失函数的推导,具体步骤如下:


1. 损失函数(交叉熵)

J(w,b)=−1m∑i=1m[y(i)log⁡(fw,b(x(i)))+(1−y(i))log⁡(1−fw,b(x(i)))]J(\mathbf{w}, b) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(f_{\mathbf{w},b}(\mathbf{x}^{(i)})) + (1-y^{(i)}) \log(1 - f_{\mathbf{w},b}(\mathbf{x}^{(i)})) \right]J(w,b)=m1i=1m[y(i)log(fw,b(x(i)))+(1y(i))log(1fw,b(x(i)))]
其中:
fw,b(x)=σ(wTx+b)=11+e−(wTx+b)f_{\mathbf{w},b}(\mathbf{x}) = \sigma(\mathbf{w}^T \mathbf{x} + b) = \frac{1}{1+e^{-(\mathbf{w}^T \mathbf{x} + b)}}fw,b(x)=σ(wTx+b)=1+e(wTx+b)1(Sigmoid函数)
• ( m ) 是样本数量,y(i)y^{(i)}y(i)是真实标签(0或1)。


2. 对权重 wjw_jwj 和偏置 bbb 的偏导数

(1)权重 wjw_jwj 的偏导

∂J(w,b)∂wj=1m∑i=1m(fw,b(x(i))−y(i))xj(i)\frac{\partial J(\mathbf{w}, b)}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m} \left( f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)} \right) x_j^{(i)}wjJ(w,b)=m1i=1m(fw,b(x(i))y(i))xj(i)
推导过程

  1. 对Sigmoid函数求导:σ′(z)=σ(z)(1−σ(z))\sigma'(z) = \sigma(z)(1-\sigma(z))σ(z)=σ(z)(1σ(z))
  2. 通过链式法则:
    ∂J∂wj=1m∑i=1m[y(i)f⋅∂f∂wj−1−y(i)1−f⋅∂f∂wj]\frac{\partial J}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m} \left[ \frac{y^{(i)}}{f} \cdot \frac{\partial f}{\partial w_j} - \frac{1-y^{(i)}}{1-f} \cdot \frac{\partial f}{\partial w_j} \right]wjJ=m1i=1m[fy(i)wjf1f1y(i)wjf]
  3. 合并同类项后代入 ∂f∂wj=f(1−f)⋅xj(i)\frac{\partial f}{\partial w_j} = f(1-f) \cdot x_j^{(i)}wjf=f(1f)xj(i),最终化简得到上述结果。
(2)偏置 bbb的偏导

∂J(w,b)∂b=1m∑i=1m(fw,b(x(i))−y(i))\frac{\partial J(\mathbf{w}, b)}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} \left( f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)} \right)bJ(w,b)=m1i=1m(fw,b(x(i))y(i))
推导类似权重,区别在于 ∂f∂b=f(1−f)\frac{\partial f}{\partial b} = f(1-f)bf=f(1f)


3. 梯度下降更新规则

权重更新
wj:=wj−α⋅1m∑i=1m(fw,b(x(i))−y(i))xj(i)w_j := w_j - \alpha \cdot \frac{1}{m} \sum_{i=1}^{m} \left( f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)} \right) x_j^{(i)}wj:=wjαm1i=1m(fw,b(x(i))y(i))xj(i)
偏置更新
b:=b−α⋅1m∑i=1m(fw,b(x(i))−y(i))b := b - \alpha \cdot \frac{1}{m} \sum_{i=1}^{m} \left( f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)} \right)b:=bαm1i=1m(fw,b(x(i))y(i))
其中 α\alphaα是学习率。


关键点说明

  1. Sigmoid的导数性质:梯度中的 f(1−f)f(1-f)f(1f) 项在求导时被约去,使得结果形式与线性回归的均方误差类似(但损失函数不同)。
  2. 向量化实现:实际编程中通常用矩阵运算(如XT(f−y)X^T (f - y)XT(fy))替代逐参数更新。
  3. 逻辑回归特性:交叉熵损失对错误分类的惩罚更严厉(梯度更大),收敛速度优于均方误差。

在这里插入图片描述
在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值