交叉熵损失函数对w求偏导数的具体步骤

公式 (3-11) 是逻辑回归中基于交叉熵损失函数对权重 w w w 求导的结果,用于梯度下降优化。具体表达式如下:
∂ L ∂ w = 1 m ∑ i = 1 m x i ( y ^ i − y i ) \frac{\partial L}{\partial w} = \frac{1}{m} \sum_{i=1}^m x_i (\hat{y}_i - y_i) wL=m1i=1mxi(y^iyi)

第一步:交叉熵损失函数

从公式 (3-10) 我们知道,交叉熵损失函数 L L L 为:
L = − 1 m ∑ i = 1 m ( y i ln ⁡ y ^ i + ( 1 − y i ) ln ⁡ ( 1 − y ^ i ) ) L = -\frac{1}{m} \sum_{i=1}^m \left( y_i \ln \hat{y}_i + (1 - y_i) \ln (1 - \hat{y}_i) \right) L=m1i=1m(yilny^i+(1yi)ln(1y^i))

其中, y ^ i \hat{y}_i y^i 是模型的预测概率,表示为:
y ^ i = 1 1 + e − ( w T x i + b ) \hat{y}_i = \frac{1}{1 + e^{-(w^T x_i + b)}} y^i=1+e(wTxi+b)1

第二步:对权重 w w w 求导

我们现在要求的是损失函数对权重 w w w 的偏导数。首先,我们只关注每个样本 i i i 的损失项:
L i = − ( y i ln ⁡ y ^ i + ( 1 − y i ) ln ⁡ ( 1 − y ^ i ) ) L_i = - \left( y_i \ln \hat{y}_i + (1 - y_i) \ln (1 - \hat{y}_i) \right) Li=(yilny^i+(1yi)ln(1y^i))

对权重 w w w 求偏导:
∂ L i ∂ w = − ( y i y ^ i ∂ y ^ i ∂ w − 1 − y i 1 − y ^ i ∂ y ^ i ∂ w ) \frac{\partial L_i}{\partial w} = - \left( \frac{y_i}{\hat{y}_i} \frac{\partial \hat{y}_i}{\partial w} - \frac{1 - y_i}{1 - \hat{y}_i} \frac{\partial \hat{y}_i}{\partial w} \right) wLi=(y^iyiwy^i1y^i1yiwy^i)

第三步:求 y ^ i \hat{y}_i y^i w w w 的导数

根据 y ^ i = 1 1 + e − ( w T x i + b ) \hat{y}_i = \frac{1}{1 + e^{-(w^T x_i + b)}} y^i=1+e(wTxi+b)1,使用链式法则求导:
∂ y ^ i ∂ w = y ^ i ( 1 − y ^ i ) x i \frac{\partial \hat{y}_i}{\partial w} = \hat{y}_i (1 - \hat{y}_i) x_i wy^i=y^i(1y^i)xi

这一结果是由逻辑回归的Sigmoid 函数的导数性质决定的,即:
d d x ( 1 1 + e − x ) = y ^ i ( 1 − y ^ i ) \frac{d}{dx} \left( \frac{1}{1 + e^{-x}} \right) = \hat{y}_i (1 - \hat{y}_i) dxd(1+ex1)=y^i(1y^i)

第四步:代入并简化

∂ y ^ i ∂ w = y ^ i ( 1 − y ^ i ) x i \frac{\partial \hat{y}_i}{\partial w} = \hat{y}_i (1 - \hat{y}_i) x_i wy^i=y^i(1y^i)xi 代入原来的偏导数公式中:
∂ L i ∂ w = − ( y i y ^ i y ^ i ( 1 − y ^ i ) x i − 1 − y i 1 − y ^ i ( 1 − y ^ i ) y ^ i x i ) \frac{\partial L_i}{\partial w} = - \left( \frac{y_i}{\hat{y}_i} \hat{y}_i (1 - \hat{y}_i) x_i - \frac{1 - y_i}{1 - \hat{y}_i} (1 - \hat{y}_i) \hat{y}_i x_i \right) wLi=(y^iyiy^i(1y^i)xi1y^i1yi(1y^i)y^ixi)

经过化简,得到:
∂ L i ∂ w = ( y ^ i − y i ) x i \frac{\partial L_i}{\partial w} = (\hat{y}_i - y_i) x_i wLi=(y^iyi)xi

第五步:对整个数据集求和并平均

将每个样本的梯度求和并对样本数量 m m m 进行平均:
∂ L ∂ w = 1 m ∑ i = 1 m ( y ^ i − y i ) x i \frac{\partial L}{\partial w} = \frac{1}{m} \sum_{i=1}^m (\hat{y}_i - y_i) x_i wL=m1i=1m(y^iyi)xi

这就是公式 (3-11) 的推导结果。

直观理解:
  • y ^ i − y i \hat{y}_i - y_i y^iyi 是模型的预测值与真实值之间的误差。对于每个样本,它表示模型的预测偏离真实值的程度。
  • 这个误差乘以对应样本的特征 x i x_i xi 来更新权重,表明哪些特征在预测误差中起了作用。
  • 最后对所有样本取平均,是为了计算整个训练集上的梯度。

这个结果用于梯度下降法,来调整权重 w w w 以最小化损失函数 L L L

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值