多类别SVM损失和交叉熵损失比较

最新推荐文章于 2024-06-28 13:30:09 发布

Blateyang

最新推荐文章于 2024-06-28 13:30:09 发布

阅读量1.9k

点赞数 1

分类专栏：深度学习文章标签：机器学习损失函数

本文链接：https://blog.csdn.net/Blateyang/article/details/78767869

版权

深度学习专栏收录该内容

23 篇文章 1 订阅

订阅专栏

多类别SVM损失和交叉熵损失是机器学习中两种常用的损失函数，为了加深自己对它们的理解也便于以后回顾，下面以表格的形式从它们的主要思想、对应的分类器、损失计算公式以及对权重矩阵的梯度计算公式四个方面进行对比。

比较项目多类别SVM损失(又称hinge loss) 交叉熵损失(cross-entropy loss)
主要思想正确的类别结果获得的得分比不正确的类别至少要高一个阈值 $\Delta$ 从信息论角度理解，最小化预测结果的概率分布与真实标签的概率分布的差异；从概率角度理解，最小化预测结果概率分布的负对数似然或对权重矩阵进行极大似然估计
对应的分类器多类别SVM分类器 Softmax分类器（上面对数符号里面的是softmax函数，它会将得分f映射为0~1之间的概率）
损失计算公式（对于输入xi） $L_i=\Sigma_{j\neq y_i} max{(0,f(x_i,W)_j-f(x_i,W)_{y_i}+\Delta)},f(x_i,W)_j$ 是属于第j类的得分， $y_i$ 是真实类别 $L_i=-log \frac{e^f_{y_i}}{\Sigma_je^{f_j}}$ ，真实标签的概率分布是仅在类别 $y_i$ 处为1，其余类别为0的向量
梯度计算公式 $\nabla w y i L i = \nabla w j L i = - (\sum j \neq y i 1 (w T j x i - w T y i x i + Δ > 0)) x i 1 (w T j x i - w T y i x i + Δ > 0) x i j = y i j \neq y i$ $\begin{aligned} \nabla_{w_{y_i}} L_i = & -\left(\sum_{j \ne y_i}1(w_j^Tx_i - w_{y_i}^Tx_i + \Delta > 0)\right)x_i & j = y_i \\ \nabla_{w_j} L_i = & 1(w_j^Tx_i - w_{y_i}^Tx_i + \Delta > 0) x_i & j \ne y_i \end{aligned}$ 1表示示性函数，括号内的自变量大于0取1 $\nabla w y i L i = \nabla w j L i = - x i + e f y i \sum j e f j x i e f j \sum j e f j x i j = y i j \neq y i$ $\begin{aligned} \nabla_{w_{y_i}} L_i = & -x_i + \frac{e^{f_{y_i}}}{\sum_j e^{f_j}} x_i & j = y_i \\ \nabla_{w_j} L_i = & \frac{e^{f_j}}{\sum_j e^{f_j}} x_i & j \ne y_i \end{aligned}$

比较项目	多类别SVM损失(又称hinge loss)	交叉熵损失(cross-entropy loss)
主要思想	正确的类别结果获得的得分比不正确的类别至少要高一个阈值 $\Delta$	从信息论角度理解，最小化预测结果的概率分布与真实标签的概率分布的差异；从概率角度理解，最小化预测结果概率分布的负对数似然或对权重矩阵进行极大似然估计
对应的分类器	多类别SVM分类器	Softmax分类器（上面对数符号里面的是softmax函数，它会将得分f映射为0~1之间的概率）
损失计算公式（对于输入xi）	$L_i=\Sigma_{j\neq y_i} max{(0,f(x_i,W)_j-f(x_i,W)_{y_i}+\Delta)},f(x_i,W)_j$ 是属于第j类的得分， $y_i$ 是真实类别	$L_i=-log \frac{e^f_{y_i}}{\Sigma_je^{f_j}}$ ，真实标签的概率分布是仅在类别 $y_i$ 处为1，其余类别为0的向量
梯度计算公式	$\nabla w y i L i = \nabla w j L i = - (\sum j \neq y i 1 (w T j x i - w T y i x i + Δ > 0)) x i 1 (w T j x i - w T y i x i + Δ > 0) x i j = y i j \neq y i$ $\begin{aligned} \nabla_{w_{y_i}} L_i = & -\left(\sum_{j \ne y_i}1(w_j^Tx_i - w_{y_i}^Tx_i + \Delta > 0)\right)x_i & j = y_i \\ \nabla_{w_j} L_i = & 1(w_j^Tx_i - w_{y_i}^Tx_i + \Delta > 0) x_i & j \ne y_i \end{aligned}$ 1表示示性函数，括号内的自变量大于0取1	$\nabla w y i L i = \nabla w j L i = - x i + e f y i \sum j e f j x i e f j \sum j e f j x i j = y i j \neq y i$ $\begin{aligned} \nabla_{w_{y_i}} L_i = & -x_i + \frac{e^{f_{y_i}}}{\sum_j e^{f_j}} x_i & j = y_i \\ \nabla_{w_j} L_i = & \frac{e^{f_j}}{\sum_j e^{f_j}} x_i & j \ne y_i \end{aligned}$