VGN论文学习笔记（markdown格式）

hong kai AI嵌入式

于 2024-10-11 22:25:03 发布

阅读量267

点赞数 5

文章标签： python 深度学习卷积神经网络人工智能

本文链接：https://blog.csdn.net/a13478107907/article/details/142864632

版权

# vocab
- back-propagation 反向传播
- weight decay 权重衰减
- gradient descent梯度下降
- regularised by weight decay 权重衰减正则化
- dropout ratio 率
- conjecture 猜想
- implicit regularisation 隐式正则化
- circumvent规避
- we sampled the weights from a normal distribution with the zero mean and 10−2 variance我们从均值为零、方差为 10-2 的正态分布中对权重进行了采样
- fusion 融合多用于model fusion
## L2惩罚系数()
- L2惩罚乘数设置为 $5 \times 10^{-4}$ 是在深度学习模型训练中使用的一种正则化技术，也称为权重衰减。这种技术通过在损失函数中添加一个与权重的平方成比例的额外项来工作，以此来惩罚大的权重值。权重衰减有助于防止模型过拟合，因为它鼓励模型学习更小、更分散的权重，从而使模型更加简单，提高其泛化能力。

在数学上，L2惩罚项可以表示为：
$$ L_{\text{total}} = L + \frac{\lambda}{2} \sum_{i} w_i^2 $$
其中：
- $L$是模型在数据上的原始损失。
- $\lambda$ 是正则化系数，也就是题目中提到的 $5 \times 10^{-4}$。
- $w_i$ 是模型权重。
- $L_{\text{total}}$ 是包含L2惩罚项的总损失。

在实际应用中，这个值是一个超参数，需要通过交叉验证等方法来调整以获得最佳模型性能。权重衰减的系数 $ \lambda $ 控制着正则化项的强度，较大的 $ \lambda $ 值会导致权重值更接近于0，而较小的值则允许模型有较大的权重值。

在某些情况下，L2正则化也被称为欧几里得范数惩罚，因为它是权重向量的欧几里得范数（L2范数）的平方。这种正则化方法在训练深度学习模型时非常常见，特别是在卷积神经网络（CNN）的训练中。
## Scale jittering 尺度抖动
是一种数据增强技术，通常用于深度学习和计算机视觉任务中，尤其是在训练卷积神经网络（CNN）时。这种方法通过对图像进行随机缩放，然后裁剪到固定尺寸，以此来增加模型的泛化能力。在不同的研究和应用中，scale jittering 可能有不同的变体和应用方式。
## Multi-scale evaluation 多尺度评估
多尺度评估（Multi-scale evaluation）是一种在不同尺度上评估模型性能的方法，它可以帮助研究者更好地理解模型在不同尺寸和复杂性级别上的表现。这种方法在计算机视觉和机器学习中尤其重要，因为它可以提供关于模型泛化能力的更多信息。

在目标检测任务中，多尺度评估通常涉及在不同尺度的图像上测试模型，以评估其对不同大小物体的识别能力。例如，一个模型可能在大尺寸物体上表现良好，但在小尺寸物体上表现不佳。通过在多个尺度上进行评估，研究者可以更好地理解模型的局限性，并探索改进的方法。

在深度学习模型的训练中，多尺度训练（multi-scale training）是一种常见的实践，它涉及在训练过程中使用不同尺寸的输入图像。这种方法可以提高模型的鲁棒性，使其能够处理各种尺寸的输入。相应地，多尺度测试（multi-scale testing）则涉及到在测试阶段使用不同尺度的图像来评估模型的性能。
## Multi-crop evaluation多区域评估
Multi-crop evaluation 是一种在计算机视觉和深度学习中用于模型测试的数据增强技术。这种方法涉及在测试阶段将单一图像裁剪成多个区域（crops），然后对这些区域分别进行评估，最后将结果进行平均，以得到最终的预测输出。这样做的目的是为了模拟图像在不同位置和尺度下的视觉表现，增强模型的泛化能力。

在实际应用中，例如在VGG网络中，multi-crop evaluation 可以通过以下步骤进行：

1. 将测试图像调整到不同的尺度。
2. 从每个尺度的图像中，按照不同的区域（例如中心、四角等）裁剪出多个区域。
3. 对这些裁剪出的区域进行模型预测。
4. 对所有裁剪区域的预测结果进行平均，得到最终的预测输出。

例如，一种常见的做法是进行10-crop evaluation，即从原始图像的中心和四个角落裁剪出5个区域，并对每个区域及其水平翻转图像进行预测，最后取平均值作为最终结果。还有一种更细致的做法是144-crop evaluation，即在ImageNet数据集中，将图像调整到4个不同的尺度，然后从每个尺度中裁剪出3个区域（最左、正中、最右），并对每个区域及其水平翻转图像进行预测，总共得到144个预测结果，再取平均值。

Multi-crop evaluation 的主要优点是能够提高模型对于图像中物体位置和尺度变化的鲁棒性，但它也意味着需要更多的计算资源来处理更多的图像区域。此外，这种方法还可以帮助减少过拟合，提高模型在实际应用中的性能。
## combined dense
"Combined dense"在深度学习和计算机视觉中，它通常指的是一种结合了密集连接网络（DenseNet）的架构，用于图像识别、分类等任务。DenseNet是一种深度卷积神经网络，它通过将每一层与前面所有层连接起来，来增强网络的信息流和参数效率。

在知识图谱领域，"Combined dense"可能指的是一种结合了关系感知特征和通用特征的嵌入方法，如在论文《ComDensE: Combined Dense Embedding of Relation-aware and Common Features for Knowledge Graph Completion》中所提出的。这种方法使用密集神经网络来提取知识图谱中的实体和关系的特征。