15-1 YOLO、VIT

YOLO -You Only Look Once

two-stage:two-stage算法会先使用一个网络生成proposal,如selective search和RPN网络,
RPN出现后,ss方法基本就被摒弃了。RPN网络接在图像特征提取网络backbone后,会设置RPN
loss(bbox regression loss+classification loss)对RPN网络进行训练,RPN生成的proposal再送到
后面的网络中进行更精细的bboxregression和classification。
one-stage :One-stage追求速度舍弃了two-stage架构,即不再设置单独网络生成proposal,而
是直接在feature map上进行密集抽样,产生大量的先验框,如YOLO的网格方法。这些先验框没
有经过两步处理,且框的尺寸往往是人为规定。
one-stage算法最典型的是YOLO,该算法速度极快

Vit (Vision Transformer)

视觉transformer
ViT原论文中最核心的结论是,当拥有足够多的数据进行预训练的时候,ViT的表现就会超过
CNN,突破transformer缺少归纳偏置的限制,可以在下游任务中获得较好的迁移效果。但是当
训练数据集不够大的时候,ViT的表现通常比同等大小的ResNets要差一些
将整幅图像拆分成小图像
在这里插入图片描述
比如图文为224224,切分为固定大小的patch(1616),
每个图像生成224224/(1616)=196个小图片,即输入序列长度为196个小图片,每个patch维度16163=768,加一个特殊字符cls(标识开头),因此最终维度:197*768

Transformer-自注意力机制-self attention

核心目标是从众多信息中选择出对当前任务目标更关键的信息。
对于每个patch,乘以权重矩阵,得到3个向量:
查询向量Q
键向量K
值向量V
打分
除以8
softmax
求和
最终得到z

Transformer-多头注意力机制(multi-headed attention)

通过自注意力计算,8次不同的权重矩阵运算,得到9个不同的Z矩阵

把8个矩阵压缩成一个矩阵

直接把矩阵拼接concat一起,乘以一个附加的权重矩阵W0

图像分块嵌入

Layer Normalization 归一化

BN是横向的
Layer N是纵向的减均值,求方差

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值