场景文本检测&识别学习 day02（AlexNet论文阅读、ResNet论文精读）

丿罗小黑

已于 2024-04-20 16:04:40 修改

阅读量253

点赞数 2

分类专栏：文字检测&识别文章标签： transformer 深度学习学习

于 2024-04-08 22:00:44 首次发布

本文链接：https://blog.csdn.net/u011453680/article/details/137525657

版权

文字检测&识别专栏收录该内容

11 篇文章 1 订阅

订阅专栏

怎么读论文

在第一遍阅读的时候，只需要看题目，摘要和结论，先看题目是不是跟我的方向有关，看摘要是不是用到了我感兴趣的方法，看结论他是怎么解决摘要中提出的问题，或者怎么实现摘要中的方法，然后决定我要不要继续看第二遍
在第二遍阅读的时候不需要关注太过工程性的技巧，比如输入数据是怎么转换的，网络是怎么做分布式训练的，第二遍阅读重点关注方法上的创新或者方法上的技巧，因为工程上的技巧很复杂，不容易复现，但是方法上的创新相对比较简单

AlexNet论文精读感想

在介绍部分，我们不能只介绍自己使用的方法，这很窄，比如我想用DETR，那我就不能只介绍DETR，我可以介绍一下传统的OCR，比如CNN，YOLO等
对于图片领域来说，整个机器学习就是在做压缩，将本来人能看懂的输入图片，经过一个模型，最后压缩成一个向量，这个向量机器能够识别，机器能够学习之后，就能够拿它来做搜索、分类等各种各样的事情
权重衰减（weight decay）在深度学习中等价于L2正则化，都是让权重w的更新额外包括一个权重衰减项 $λw_k$ ，从而当权重特别大的时候，w的更新也会特别大。而往往刚开始的损失特别大，即模型会让权重w以特别大的步伐向较小的权重w迈进，最终导致不让模型学习到过大的权重，权重w的更新规则如下：
正则化是机器学习和统计建模中常用的一种技术，旨在减少模型的过拟合，提高模型的泛化能力。通过对模型添加约束或惩罚，正则化方法鼓励模型学习更加平滑或更简单的预测函数，从而不会对训练数据中的随机噪声做过度复杂的拟合。在实践中，这通常意味着对模型参数（如权重）的大小进行限制。
- L1正则化：向损失函数添加参数的绝对值之和作为惩罚项。L1正则化倾向于产生稀疏的参数向量，即大多数参数值为零，这有助于特征选择，因为它可以自动忽略不重要的特征。
- L2正则化：向损失函数添加参数的平方和作为惩罚项。L2正则化鼓励参数值趋向于较小的大小，从而避免任何参数对模型的预测产生过大的影响。这种方法对于处理参数间高度相关的数据特别有效。

ResNet论文精读感想

在计算机视觉领域，可以重点关注某些竞赛的冠军、亚军，特别是那些提出了不一样的架构、方法的论文
checkpiont文件和.pth文件的关系
- checkpoint文件是模型训练中定期保存的一种文件，用来记录模型的状态，包括模型的参数，优化器状态，训练轮次等信息。该文件主要是为了能够从中断的地方恢复训练，或者用于模型的评估和测试
- .pth文件是模型训练中保存模型的参数的文件，用来将训练好的模型分享给他人，或者在不同的项目中复用模型
- 综上：checkpoint文件通常包含比.pth文件更多的信息，比如优化器状态，训练轮次等，而不仅仅包含模型的参数。因此在某些情况下，.pth可能就是从checkpoint文件中提取出来的模型参数部分
在目标检测数据集中，labels文件的内容格式通常是：每行表示一个物体，而每行的信息包括：图片文件名，物体类别，边缘框。因此如果一张图片中有多个物体，那么在labels文件中，图片文件名可能出现多次。注意：边缘框的x轴的起点为左下，y轴的起点为左上
深度网络可以通过叠加层数–增加深度，来获取更多级别的特征（低-中-高），但是较深的网络在训练和测试时也有着较高的误差
而一个学习更好的网络是否就是堆叠更多的层，但是堆叠更多层会导致一个重要的问题----梯度爆炸/梯度消失（即训练不收敛），虽然经过标准化初始化，中间层归一化等方法可以满足数十层带有SGD的网络训练收敛，但是当网络层数进一步加深，准确性会达到饱和，同时迅速下降。这种衰退并不是由于过拟合，当给适当深度的模型添加很多层时会导致更高的训练错误
训练准确率的下降表示，不是所有深度的网络模型都是同样容易优化，但是对于一个更深的模型来说，存在一个解决方案即：相比于更浅层的模型，深模型添加的那些层可以是恒等映射（f(x)=x，输入等于输出），其他层则是直接从更浅层的模型直接复制过来，但是实验表明，目前的网络模型找不到这种解决方案。
所以如果最后的底层映射为H(x)，那么中间堆叠层的映射为底层映射减去恒等映射x，即F(x) = H(x) - x，所以底层映射为H(x) = F(x) + x，为什么要做相加是因为，如果恒等映射是最优的网络结果，那么将F(x)设为0，要比（如果为H(x) = G(x)，G(x)为非线性层的变化统称）将G(x)拟合恒等映射要简单很多，相加我们可以通过快捷连接的FFN来实现，快捷链接仅仅是将输入x直接加到输出F(x)上，作为整体的输出H(x)
快捷连接是作为恒等连接，所以它即不增加额外参数也不增加计算复杂度，整个网络也可以继续使用SGD，同时也不需要修改求解器（优化器）
残差块为下图的全部：
残差函数（残差）为F(x)，而H(x)为残差块试图学习的目标函数，H(x) = F(x) + x，非残差函数（快捷连接）为x
如果添加的层可以被学习为恒等映射（输入等于输出），那么更深的模型的训练误差就不应该大于较浅的模型，这表明优化器很难在多个非线性层中拟合恒等映射，因此重新表述了网络模型后，如果恒等映射为最优，那么优化器可以直接将非线性层的权重趋于零，相比于之前，对于优化器来说要容易很多
注意，当我们引入快捷连接的时候，需要考虑输入和输出的维度是否统一，如果相同，那么我们可以直接用快捷连接公式一，如下：
如果输入和输出的维度不统一，那么我们就有两种选择，第一：还是使用公式一，但是我们对于增加的维度直接填充0。第二：使用公式二的投影方式来匹配维度（1*1卷积），如下：
对于减少通道数，我们可以通过设置1*1的卷积核的输出通道数（卷积核的个数）来实现
对于减少宽高，我们可以通过设置卷积核的步长来实现
综上，对于快捷连接，我们有三种方式，实际上第二种使用的最多：
(1)第一种，当需要增加维度时，使用零填充的快捷连接，所有快捷连接都是无参数的。零填充意味着在维度扩展时，新增的维度被填充为零。
(2)第二种，当需要增加维度时，使用投影快捷连接，其它快捷连接则保持为恒等映射。投影快捷连接通常通过1x1卷积实现，可以改变通道数，以适应输入输出间的维度不一致问题，但引入了额外的参数
(3)第三种，所有快捷连接都是投影快捷连接。
现在大部分模型用于特征提取的模型Resnet50，有38亿FLOPs（一次前向传播需要38亿次浮点计算），FLOPs作为衡量模型复杂度的指标