单目标优化评价指标_深度学习优化方法与目标检测中的评价指标

最新推荐文章于 2024-07-24 18:43:11 发布

weixin_39569389

最新推荐文章于 2024-07-24 18:43:11 发布

阅读量995

点赞数

文章标签：单目标优化评价指标

本文链接：https://blog.csdn.net/weixin_39569389/article/details/113450665

版权

本文介绍了深度学习中的优化算法，如批量梯度下降、随机梯度下降、Mini-batch梯度下降、Momentum、Nesterov、RMSprop和Adam，并解释了它们的工作原理和优缺点。此外，还探讨了目标检测任务中的评价指标，包括召回率、精确率、P-R曲线、平均精度（AP）、ROC曲线和平均精度均值（mAP），帮助读者理解如何评估模型性能。

摘要由CSDN通过智能技术生成

我的CSDN博客：https://blog.csdn.net/litt1e

我的公众号：工科宅生活

在学习深度学习，目标检测等相关知识时，需要了解一些基础的优化方法与评价指标（这里只是简单叙述方便理解，想真正弄明白还得撸论文）。

优化算法

批量梯度下降(Batch gradient descent)

每次使用全量的训练集样本来更新模型参数，即： θ=θ−η⋅∇θJ(θ)。其代码如下：

批量梯度下降每次学习都使用整个训练集，因此其优点在于每次更新都会朝着正确的方向进行，最后能够保证收敛于极值点(凸函数收敛于全局极值点，非凸函数可能会收敛于局部极值点)，但是其缺点在于每次学习时间过长，并且如果训练集很大以至于需要消耗大量的内存，并且全量梯度下降不能进行在线模型参数更新。

随机梯度下降(Stochastic gradient descent)

随机梯度下降算法每次从训练集中随机选择一个样本来进行学习，即： θ=θ−η⋅∇θJ(θ;xi;yi)

随机梯度下降算法每次只随机选择一个样本来更新模型参数，因此每次的学习是非常快速的，并且可以进行在线更新。其代码如下：

相对于随机梯度下降，Mini-batch梯度下降降低了收敛波动性，即降低了参数更新的方差，使得更新更加稳定。相对于全量梯度下降，其提高了每次学习的速度。并且其不用担心内存瓶颈从而可以利用矩阵运算进行高效计算。一般而言每次更新随机选择[50,256]个样本进行学习，但是也要根据具体问题而选择，实践中可以进行多次试验，选择一个更新速度与更次次数都较适合的样本数。mini-batch梯度下降可以保证收敛性，常用于神经网络中。

Momentum

momentum是模拟物理里动量的概念，积累之前的动量来替代真正的梯度。公式如下：

下降初期时，使用上一次参数更新，下降方向一致，乘上较大的mu能够进行很好的加速。

下降中后期时，在局部最小值来回震荡的时候，gradientto0，mu使得更新幅度增大，跳出陷阱。

在梯度改变方向的时候，mu能够减少更新总而言之，momentum项能够在相关方向加速SGD，抑制振荡，从而加快收敛。

Nesterov

nesterov项在梯度更新时做一个校正，避免前进太快，同时提高灵敏度。将上一节中的公式展开可得：

可以看出，m{t-1}并没有直接改变当前梯度gt，所以Nesterov的改进就是让之前的动量直接影响当前的动量。即：

RMSprop

RMSProp算法的全称叫 Root Mean Square Prop，为了进一步优化损失函数在更新中存在摆动幅度过大的问题，并且进一步加快函数的收敛速度，RMSProp算法对权重 W 和偏置 b的梯度使用了微分平方加权平均数。

其中，假设在第 t 轮迭代过程中，各个公式如下所示：

在上面的公式中sdw和sdb分别是损失函数在前t−1轮迭代过程中累积的梯度梯度动量，β 是梯度累积的一个指数。所不同的是，RMSProp算法对梯度计算了微分平方加权平均数。这种做法有利于消除了摆动幅度大的方向，用来修正摆动幅度，使得各个维度的摆动幅度都较小。另一方面也使得网络函数收敛更快。（比如当 dW 或者 db 中有一个值比较大的时候，那么我们在更新权重或者偏置的时候除以它之前累积的梯度的平方根，这样就可以使得更新幅度变小）。为了防止分母为零，使用了一个很小的数值 ϵϵ来进行平滑，一般取值为10的-8次方。

Adam

Adam（Adaptive Moment Estimation）算法是将Momentum算法和RMSProp算法结合起来使用的一种算法，我们所使用的参数基本和上面讲的一致，在训练的最开始我们需要初始化梯度的累积量和平方累积量。

假设在训练的第 t轮训练中，我们首先可以计算得到Momentum和RMSProp的参数更新：

由于移动指数平均在迭代开始的初期会导致和开始的值有较大的差异，所以我们需要对上面求得的几个值做偏差修正。

通过上面的公式，我们就可以求得在第 t 轮迭代过程中，参数梯度累积量的修正值，从而接下来就可以根据Momentum和RMSProp算法的结合来对权重和偏置进行更新。

上面的所有步骤就是Momentum算法和RMSProp算法结合起来从而形成Adam算法。

评价指标

分类目标只有两类，计为正例（positive）和负（negtive）：

1） True positives(TP): 被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数（样本数）；

2）False positives(FP): 被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数；

3）False negatives(FN):被错误地划分为负例的个数，即实际为正例但被分类器划分为负例的实例数；

4）True negatives(TN): 被正确地划分为负例的个数，即实际为负例且被分类器划分为负例的实例数。

召回率（recall）：
又被称为查全率，预测为正例（positive）的样本中正确的数量除以真正的Positive的数量，即：Recall=TP/(TP+FN)=TP/P

精确率（Precision）：
又被称为查准率，被分为正例的示例中实际为正例的比例，
即Precision=TP/（TP+FP）

P-R曲线：
选取不同阈值时对应的精度和召回画出来

总体趋势，精度越高，召回越低，当召回达到1时，对应概率分数最低的正样本，这个时候正样本数量除以所有大于等于该阈值的样本数量就是最低的精度值。

平均精度（Average-Precision，AP）：
P-R曲线围起来的面积，通常来说一个越好的分类器，AP值越高。

Receiver Operating Characteristic，ROC
1） True Positive Rate ( TPR ) = TP / [ TP + FN] ，TPR代表能将正例分对的概率
2）False Positive Rate( FPR ) = FP / [ FP + TN] ，FPR代表将负例错分为正例的概率