CNN笔记(4)--目标函数

最新推荐文章于 2024-06-01 20:29:05 发布

Codename-NC

最新推荐文章于 2024-06-01 20:29:05 发布

阅读量1.6k

点赞数

分类专栏：笔记-算法文章标签： CNN 激活函数

本文链接：https://blog.csdn.net/ericcchen/article/details/80102025

版权

笔记-算法专栏收录该内容

17 篇文章 2 订阅

订阅专栏

9.目标函数（损失函数，代价函数）

9.1分类任务的目标函数

9.1.1 交叉熵损失函数（cross entropy）(SoftMax)

L c r o s s e n t r o p y l o s s = L s o f t m a x_l o s s = - 1 N \sum i = 1 N log e h y i \sum C j = 1 e h j

$L_{cross \ entropy \ loss} = L_{softmax\_loss}=-\frac{1}{N}\sum^N_{i=1}\log{\frac{e^{h_{yi}}}{\sum_{j=1}^C e^{h_j}}}$

通过指数化变换使网络输出 h 转换为概率形式

9.1.2 合页损失函数(hinge loss)

L h i n g e l o s s = 1 N \sum i = 1 N m a x {0, 1 - h y i}

$L_{hinge \ loss}=\frac{1}{N}\sum^N_{i=1}max\{0,1-h_{yi}\}$

一般分类任务，交叉熵比hinge更好

9.1.3 坡道损失函数(ramp loss function)

针对噪声数据和离群点具备良好的抗噪特性

在分类（回归）误差较大区域进行了“截断”

L r a m p l o s s = L h i n g e l o s s - 1 N \sum i = 1 N m a x {0, s - h y i} = 1 N \sum i = 1 N (m a x {0, 1 - h y i} - m a x {0, s - h y i})

$L_{ramp \ loss}=L_{hinge \ loss}-\frac{1}{N}\sum^N_{i=1}max\{0,s-h_{yi}\} =\frac{1}{N}\sum^N_{i=1}(max\{0,1-h_{yi}\}-max\{0,s-h_{yi}\})$
s 指定了“截断点”的位置
s 取值最好根据分类任务的类别数 C 而定，一般设置为 s = -1/(C-1)

也被称为截断合页函数

以上提到的交叉熵损失函数、合页损失函数和坡道损失函数只是简单衡量
模型预测值与样本真实标记之间的误差从而指导训练过程，它们并没有显式地
将特征判别性学习考虑到整个网络训练中。

9.1.4 大间隔交叉熵损失函数

传统的softmax中将输出结果h表示为全连接层参数W与该层特征向量 $x_i$ 的内积

可变换为

L s o f t m a x l o s s = - 1 N \sum i = 1 N log e | | W i | | | | x i | | cos ( θ y i ) \sum C j = 1 e | | W j | | | | x i | | c o s ( θ j )

$L_{softmax\ loss} = -\frac{1}{N}\sum^N_{i=1}\log{\frac{e^{||W_i||||x_i||\cos(\theta_{yi})}}{\sum_{j=1}^C e^{||W_j||||x_i||cos(\theta_j)}}}$

将第i类分类间隔拉大，由 $cos(\theta_{yi})$ 变为 $\phi(\theta_{yi})$

得到大间隔交叉熵损失函数

L l a r g e_m a r g i n s o f t m a x l o s s = - 1 N \sum i = 1 N log e | | W i | | | | x i | | ϕ ( θ y i ) e | | W i | | | | x i | | ϕ ( θ y i ) + \sum j \neq y i e | | W j | | | | x i | | c o s ( θ j )

$L_{large\_margin\ softmax\ loss} = -\frac{1}{N}\sum^N_{i=1}\log{\frac{e^{||W_i||||x_i||\phi(\theta_{yi})}}{e^{||W_i||||x_i||\phi(\theta_{yi})}+\sum_{j\neq y_i}e^{||W_j||||x_i||cos(\theta_j)}}}$
其中，

ϕ (θ) = ⎧ ⎩ ⎨ ⎪ ⎪ cos (m θ), D (θ), 0 \leq θ \leq π m π m < θ \leq π

$\phi(\theta)=\left\{ \begin{aligned} \cos(m\theta), && 0 \leq \theta \leq \frac{\pi}{m} \\ D(\theta),&& \frac{\pi}{m}<\theta \leq \pi \end{aligned} \right.$
式中，

D(θ) D ( θ ) $D(\theta)$ 满足单调递减，且

D(πm=cosπm) D ( π m = cos ⁡ π m ) $D(\frac{\pi}{m}=\cos{\frac{\pi}{m}})$ ，

9.1.5 中心损失函数

L c e n t e r l o s s = 1 2 \sum i = 1 N | | x i - c y i | | 22

$L_{center\ loss}=\frac{1}{2}\sum^N_{i=1}||x_i-c_{yi}||_2^2$
其中，

cyi c y i $c_{yi}$ 为第

yi y i $y_i$ 类所有深度特征的均值（‘中心’）

主要考虑控制类内差异，与考虑类间距离的损失函数配合（交叉熵损失函数）

最终目标函数表示为

L f i n a l = L c r o s s e n t r o p y l o s s + L c e n t e r l o s s (h, y i) = - 1 N \sum i = 1 N log e h y i \sum C j = 1 e h j + λ 2 \sum i = 1 N | | x i - c y i | | 22

$L_{final}=L_{cross\ entropy \ loss}+L_{center\ loss}(h,y_i) = -\frac{1}{N}\sum^N_{i=1}\log{\frac{e^{h_{yi}}}{\sum_{j=1}^C e^{h_j}}}+\frac{\lambda}{2}\sum^N_{i=1}||x_i-c_{yi}||_2^2$

式中 $\lambda$ 为两个损失函数的调节项， $\lambda$ 越大，类内差异比重越大

9.2 回归任务的损失函数

基本概念：残差

9.2.1 $l_1$ 损失函数

对N个样本：

L l 1 l o s s = 1 N \sum i = 1 N \sum t = 1 M | l i t |

$L_{l_1\ loss}=\frac{1}{N}\sum^N_{i=1}\sum^M_{t=1}|l_t^i|$

9.2.2 $l_2$ 损失函数

对N个样本

L l 1 l o s s = 1 N \sum i = 1 N \sum t = 1 M (l i t) 2

$L_{l_1\ loss}=\frac{1}{N}\sum^N_{i=1}\sum^M_{t=1}(l_t^i)^2$
两个损失函数在回归精度上相差无几，某些情况，

l2 l 2 $l_2$ 可能略优，速度也更快

9.2.3 Tukey’s biweight 损失函数（鲁棒损失函数）

非凸损失函数

可以克服回归任务中的离群点或样本噪声对整体回归模型的干扰影响

L T u k e y' s b i w e i g h t l o s s = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ c 2 6 N \sum i = 1 N \sum t = 1 M [1 - (1 - (l i t c) 2) 3], c 2 M 6, i f | l i t | \leq c o t h e r w i s e

$L_{Tukey's\ biweight \ loss}=\left\{ \begin{aligned} \frac{c^2}{6N}\sum^N_{i=1}\sum^M_{t=1}[1-(1-(\frac{l_t^i}{c})^2)^3], && if |l_t^i|\leq c \\ \frac{c^2 M}{6}, && otherwise \end{aligned} \right.$

常数c决定函数拐点

9.3 其他任务的目标函数

标记分布问题 区别于分类问题的离散标记，也不同于回归问题的连续标记

语义分割

以一定程度缓解多标记任务中的类别不确信问题

利用softmax 将输出结果h转换为合法分布

针对预测的标记向量（标记分布） $\hat y$ ,使用KL散度衡量与真实标记向量y的误差

L K L l o s s = \sum k y k log y k y ^ k

$L_{KL \ loss}=\sum_{k} y_k \log{\frac{y_k}{\hat y_k}}$
由于

yk y k $y_k$ 为常量，等价于

L K L l o s s = - \sum k y k log y^k

$L_{KL \ loss}=-\sum_{k} y_k \log{{\hat y_k}}$

参考文献：解析卷积神经网络—深度学习实践手册引用块内容

Codename-NC

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
CNN笔记(4)--目标函数

9.目标函数（损失函数，代价函数）9.1分类任务的目标函数9.1.1 交叉熵损失函数（cross entropy）(SoftMax)Lcross&nbsp;entropy&nbsp;loss=Lsoftmax_loss=−1N∑i=1Nlogehyi∑Cj=1ehjLcross&nbsp;entropy&nbsp;loss=Lsoftmax_loss=−1N∑i=1Nlog⁡e...
复制链接

扫一扫