机器学习中的基本问题——log损失与交叉熵的等价性-CSDN博客

本文链接：https://blog.csdn.net/google19890102/article/details/79496256

本文详细解析了Log损失和交叉熵的概念及其数学表达形式，包括它们在二分类任务中的应用，并通过数学推导展示了两者之间的联系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、log损失

log损失的基本形式为：

l o g (1 + e x p (- m))

$log\left ( 1+exp\left ( -m \right ) \right )$

其中， $m=y\cdot \hat{y}$ ， $y\in\left \{ -1,1 \right \}$ 。

对上述的公式改写：

$\Rightarrow 1 m \sum i = 1 m l o g (1 + e x p (- y (i) \cdot y (i)^))$ $\Rightarrow \frac{1}{m}\sum_{i=1}^{m}log\left ( 1+exp\left ( -y^{\left ( i \right )}\cdot \hat{y^{\left ( i \right )}} \right ) \right )$
已知：
$σ (x) = 1 1 + e x p ( - x )$ $\sigma \left ( x \right )=\frac{1}{1+exp\left ( -x \right )}$
$σ (x) = 1 - σ (- x)$ $\sigma \left ( x \right )=1-\sigma \left ( -x \right )$
$\Rightarrow 1 m \sum i = 1 m l o g (σ (y (i) \cdot y (i)^) - 1) = - 1 m \sum i = 1 m l o g σ (y (i) \cdot y (i)^)$ $\Rightarrow \frac{1}{m}\sum_{i=1}^{m}log\left ( \sigma \left ( y^{\left ( i \right )}\cdot \hat{y^{\left ( i \right )}} \right )^{-1}\right )=-\frac{1}{m}\sum_{i=1}^{m}log \sigma \left ( y^{\left ( i \right )}\cdot \hat{y^{\left ( i \right )}} \right )$

2、交叉熵

交叉熵的一般形式为：

H (y, y^) = - \sum y \cdot l o g σ (y^)

$H\left ( y,\hat{y} \right )=-\sum y\cdot log\sigma \left ( \hat{y} \right )$

对于 $m$ 个样本，则交叉熵为：

H (y, \hat{y}) = - \frac{1}{m} \sum_{i = 1}^{m} [I {y^{(i)} = 1} \cdot l o g σ (\hat{y}) + I {y^{(i)} = - 1} \cdot l o g (1 - σ (\hat{y}))]

$H\left ( y,\hat{y} \right )=-\frac{1}{m}\sum_{i=1}^{m} \left [ I\left \{ y^{\left ( i \right )}=1 \right \}\cdot log\sigma \left ( \hat{y} \right )+ I\left \{ y^{\left ( i \right )}=-1 \right \}\cdot log\left ( 1-\sigma \left ( \hat{y} \right ) \right )\right ]$

$H(y,y^)=−1m∑i=1m[I{y(i)=1}⋅logσ(y^)+I{y(i)=−1}⋅logσ(−y^)] H ( y , y ^ ) = − 1 m ∑ i = 1 m [ I { y ( i ) = 1 } ⋅ l o g σ ( y ^ ) + I { y ( i ) = − 1 } ⋅ l o g σ ( − y ^ ) ]$ $H\left ( y,\hat{y} \right )=-\frac{1}{m}\sum_{i=1}^{m} \left [ I\left \{ y^{\left ( i \right )}=1 \right \}\cdot log\sigma \left ( \hat{y} \right )+ I\left \{ y^{\left ( i \right )}=-1 \right \}\cdot log\sigma \left ( -\hat{y} \right ) \right ]$
由于 $y^{\left ( i \right )}\in\left \{ -1,1 \right \}$ ，且必定为其一。
$\Rightarrow I {y (i) = k} = {01 if y (i) \neq k if y (i) = k$ $\Rightarrow I\left \{ y^{\left ( i \right )}=k \right \}=\begin{cases} 0 & \text{ if } y^{\left ( i \right )}\neq k \\ 1 & \text{ if } y^{\left ( i \right )}= k \end{cases}$
$H (y, y^) = - 1 m \sum i = 1 m l o g σ (y (i) \cdot y (i)^)$ $H\left ( y,\hat{y} \right )=-\frac{1}{m}\sum_{i=1}^{m} log\sigma \left ( y^{\left ( i \right )}\cdot \hat{y^{\left ( i \right )}} \right )$