cv-图像分类

图像分类:卷积网路优于全连接网络的原因是归纳偏置(inductive bias)
https://blog.csdn.net/weixin_44708254/article/details/120981764
alexnet -> VGGnet -> resnet -> vit

resnet  vgg
1. Resnet50:总共有5个stage,1)stage0(3*224*224->64*56*56):先做一次卷积(7*7/2)+池化(3*3/2),输入为3*224*224,经过stage1之后变成64*56*56。2)stage1(64*56*56->256*56*56):包含3个block,第一个block是需要承担改变通道数量和图片尺寸的作用,需要做1*1卷积的残差连接,后面的block为了增加网络深度,都是做直连的残差连接,stage1和后面stage不一样的地方是没有做下采样(stride=1),保持了图片尺寸不变。3)stage2(256*56*56->512*28*28):包含4个block。4)stage3(512*28*28->1024*14*14):包含6个block。5)stage4(1024*14*14->2048*7*7):包含3个block。6)卷积核为7的平均池化(2048*7*7->2048*1*1)。7)全连接。

        优点:1)解决了网络退化的问题:因为非线性激活函数会带来一定的信息损失,层数太多会导致网络退化的现象发生,残差很好的解决了这个问题。2)梯度消失/爆炸:通过链式法则求导公式可以发现,梯度公式中是每层的激活函数的导数与下一层参数w连乘的形式,所以梯度消失和爆炸主要由激活函数的导数和参数两部分引起,如果采用relu激活函数,那就主要由参数导致,所以在relu激活函数的前提下主要通过BN和参数初始化来解决梯度消失/爆炸的问题。

VIT
2. VIT:把每张图片切割成n*n的小方格,每个方格的大小是16*16像素,把每个方格当成一个word输入给transformer网络,1)输入部分:每个patch经过全连接输出的向量concact一起,然后和位置编码做加法(随机初始化)。2)block部分:先做layer norm,然后经过multi-head attention,输入和输出的维度保持一模一样,然后把增加一个残差链接。然后再经过layer norm、MLP.
优缺点:
1)VIT在大数据上(千万张以上的数据集)的表现比resnet好
2)比resnet使用更少的训练资源

缺点(相比卷积):缺少卷积中的归纳偏置能力,归纳偏置其实就是一种先验知识,一种提前做好的假设。在CNN中的归纳偏置一般包括两类:locality(局部性)和translation equivariance(平移等变性)①  locality:假设相同的区域会有相同的特征,靠得越近的东西相关性能也就越强。局部性可以控制模型的复杂度。②translation equivariance:由于卷积核是一样的所以不管图片中的物体移动到哪里,只要是同样的输入进来遇到同样的卷积核,那么输出就是一样的。利用平移等变形可以很好的提高模型的泛化能力。总结:但是使用基于CNN的方法还是存在感受野有限的问题,不能很好的建模长远的依赖关系(全局信息),而基于transformer的方法可以很好的建模全局信息但是transformer反而缺乏类似于CNN的归纳偏置,这些先验信息必须通过大量的数据来进行学习,所以小的数据在CNN上取得的效果一般优于基于transformer的方法。训练基于CNN的方法通常只需要一个较小的数据集,而训练基于transformer的方法一般需要再大的数据集上进行预训练。

fastrcnn

yolo

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值