场景文本检测&识别学习 day02(AlexNet论文阅读、ResNet论文精读)

怎么读论文

  • 在第一遍阅读的时候,只需要看题目,摘要和结论,先看题目是不是跟我的方向有关,看摘要是不是用到了我感兴趣的方法,看结论他是怎么解决摘要中提出的问题,或者怎么实现摘要中的方法,然后决定我要不要继续看第二遍
  • 在第二遍阅读的时候不需要关注太过工程性的技巧,比如输入数据是怎么转换的,网络是怎么做分布式训练的,第二遍阅读重点关注方法上的创新或者方法上的技巧,因为工程上的技巧很复杂,不容易复现,但是方法上的创新相对比较简单

AlexNet论文精读感想

  • 在介绍部分,我们不能只介绍自己使用的方法,这很窄,比如我想用DETR,那我就不能只介绍DETR,我可以介绍一下传统的OCR,比如CNN,YOLO等
  • 对于图片领域来说,整个机器学习就是在做压缩,将本来人能看懂的输入图片,经过一个模型,最后压缩成一个向量,这个向量机器能够识别,机器能够学习之后,就能够拿它来做搜索、分类等各种各样的事情
  • 权重衰减(weight decay)在深度学习中等价于L2正则化,都是让权重w的更新额外包括一个权重衰减项 λ w k λw_k λwk,从而当权重特别大的时候,w的更新也会特别大。而往往刚开始的损失特别大,即模型会让权重w以特别大的步伐向较小的权重w迈进,最终导致不让模型学习到过大的权重,权重w的更新规则如下:
    在这里插入图片描述
  • 正则化是机器学习和统计建模中常用的一种技术,旨在减少模型的过拟合,提高模型的泛化能力。通过对模型添加约束或惩罚,正则化方法鼓励模型学习更加平滑或更简单的预测函数,从而不会对训练数据中的随机噪声做过度复杂的拟合。在实践中,这通常意味着对模型参数(如权重)的大小进行限制。
    • L1正则化:向损失函数添加参数的绝对值之和作为惩罚项。L1正则化倾向于产生稀疏的参数向量,即大多数参数值为零,这有助于特征选择,因为它可以自动忽略不重要的特征。
    • L2正则化:向损失函数添加参数的平方和作为惩罚项。L2正则化鼓励参数值趋向于较小的大小,从而避免任何参数对模型的预测产生过大的影响。这种方法对于处理参数间高度相关的数据特别有效。

ResNet论文精读感想

  • 在计算机视觉领域,可以重点关注某些竞赛的冠军、亚军,特别是那些提出了不一样的架构、方法的论文
  • checkpiont文件和.pth文件的关系
    • checkpoint文件是模型训练中定期保存的一种文件,用来记录模型的状态,包括模型的参数,优化器状态,训练轮次等信息。该文件主要是为了能够从中断的地方恢复训练,或者用于模型的评估和测试
    • .pth文件是模型训练中保存模型的参数的文件,用来将训练好的模型分享给他人,或者在不同的项目中复用模型
    • 综上:checkpoint文件通常包含比.pth文件更多的信息,比如优化器状态,训练轮次等,而不仅仅包含模型的参数。因此在某些情况下,.pth可能就是从checkpoint文件中提取出来的模型参数部分
  • 在目标检测数据集中,labels文件的内容格式通常是:每行表示一个物体,而每行的信息包括:图片文件名,物体类别,边缘框。因此如果一张图片中有多个物体,那么在labels文件中,图片文件名可能出现多次。注意:边缘框的x轴的起点为左下,y轴的起点为左上
  • 深度网络可以通过叠加层数–增加深度,来获取更多级别的特征(低-中-高),但是较深的网络在训练和测试时也有着较高的误差
  • 而一个学习更好的网络是否就是堆叠更多的层,但是堆叠更多层会导致一个重要的问题----梯度爆炸/梯度消失(即训练不收敛),虽然经过标准化初始化,中间层归一化等方法可以满足数十层带有SGD的网络训练收敛,但是当网络层数进一步加深,准确性会达到饱和,同时迅速下降。这种衰退并不是由于过拟合,当给适当深度的模型添加很多层时会导致更高的训练错误
  • 训练准确率的下降表示,不是所有深度的网络模型都是同样容易优化,但是对于一个更深的模型来说,存在一个解决方案即:相比于更浅层的模型,深模型添加的那些层可以是恒等映射(f(x)=x,输入等于输出),其他层则是直接从更浅层的模型直接复制过来,但是实验表明,目前的网络模型找不到这种解决方案。
  • 所以如果最后的底层映射为H(x),那么中间堆叠层的映射为底层映射减去恒等映射x,即F(x) = H(x) - x,所以底层映射为H(x) = F(x) + x,为什么要做相加是因为,如果恒等映射是最优的网络结果,那么将F(x)设为0,要比(如果为H(x) = G(x),G(x)为非线性层的变化统称)将G(x)拟合恒等映射要简单很多,相加我们可以通过快捷连接的FFN来实现,快捷链接仅仅是将输入x直接加到输出F(x)上,作为整体的输出H(x)
  • 快捷连接是作为恒等连接,所以它即不增加额外参数也不增加计算复杂度,整个网络也可以继续使用SGD,同时也不需要修改求解器(优化器)
  • 残差块为下图的全部:
    在这里插入图片描述
  • 残差函数(残差)为F(x),而H(x)为残差块试图学习的目标函数,H(x) = F(x) + x,非残差函数(快捷连接)为x
  • 如果添加的层可以被学习为恒等映射(输入等于输出),那么更深的模型的训练误差就不应该大于较浅的模型,这表明优化器很难在多个非线性层中拟合恒等映射,因此重新表述了网络模型后,如果恒等映射为最优,那么优化器可以直接将非线性层的权重趋于零,相比于之前,对于优化器来说要容易很多
  • 注意,当我们引入快捷连接的时候,需要考虑输入和输出的维度是否统一,如果相同,那么我们可以直接用快捷连接公式一,如下:
    在这里插入图片描述
  • 如果输入和输出的维度不统一,那么我们就有两种选择,第一:还是使用公式一,但是我们对于增加的维度直接填充0。第二:使用公式二的投影方式来匹配维度(1*1卷积),如下:
    在这里插入图片描述
  • 对于减少通道数,我们可以通过设置1*1的卷积核的输出通道数(卷积核的个数)来实现
  • 对于减少宽高,我们可以通过设置卷积核的步长来实现
  • 综上,对于快捷连接,我们有三种方式,实际上第二种使用的最多:
    (1)第一种,当需要增加维度时,使用零填充的快捷连接,所有快捷连接都是无参数的。零填充意味着在维度扩展时,新增的维度被填充为零。
    (2)第二种,当需要增加维度时,使用投影快捷连接,其它快捷连接则保持为恒等映射。投影快捷连接通常通过1x1卷积实现,可以改变通道数,以适应输入输出间的维度不一致问题,但引入了额外的参数
    (3)第三种,所有快捷连接都是投影快捷连接。
  • 现在大部分模型用于特征提取的模型Resnet50,有38亿FLOPs(一次前向传播需要38亿次浮点计算),FLOPs作为衡量模型复杂度的指标
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

丿罗小黑

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值