15-1 YOLO、VIT

遥远的阿勒泰

已于 2024-07-28 15:02:38 修改

阅读量132

点赞数 2

文章标签： YOLO

于 2024-07-28 01:00:42 首次发布

本文链接：https://blog.csdn.net/Kang_Kang330/article/details/140744062

版权

YOLO -You Only Look Once

two-stage：two-stage算法会先使用一个网络生成proposal，如selective search和RPN网络，
RPN出现后，ss方法基本就被摒弃了。RPN网络接在图像特征提取网络backbone后，会设置RPN
loss（bbox regression loss+classification loss）对RPN网络进行训练，RPN生成的proposal再送到
后面的网络中进行更精细的bboxregression和classification。
one-stage ：One-stage追求速度舍弃了two-stage架构，即不再设置单独网络生成proposal，而
是直接在feature map上进行密集抽样，产生大量的先验框，如YOLO的网格方法。这些先验框没
有经过两步处理，且框的尺寸往往是人为规定。
one-stage算法最典型的是YOLO，该算法速度极快

Vit （Vision Transformer）

视觉transformer
ViT原论文中最核心的结论是，当拥有足够多的数据进行预训练的时候，ViT的表现就会超过
CNN，突破transformer缺少归纳偏置的限制，可以在下游任务中获得较好的迁移效果。但是当
训练数据集不够大的时候，ViT的表现通常比同等大小的ResNets要差一些
将整幅图像拆分成小图像
在这里插入图片描述
比如图文为224224，切分为固定大小的patch（1616），
每个图像生成224224/（1616）=196个小图片，即输入序列长度为196个小图片，每个patch维度16163=768，加一个特殊字符cls（标识开头），因此最终维度：197*768

Transformer-自注意力机制-self attention

核心目标是从众多信息中选择出对当前任务目标更关键的信息。
对于每个patch，乘以权重矩阵，得到3个向量：
查询向量Q
键向量K
值向量V
打分
除以8
softmax
求和
最终得到z

Transformer-多头注意力机制（multi-headed attention）

通过自注意力计算，8次不同的权重矩阵运算，得到9个不同的Z矩阵

把8个矩阵压缩成一个矩阵

直接把矩阵拼接concat一起，乘以一个附加的权重矩阵W0

图像分块嵌入

Layer Normalization 归一化

BN是横向的
Layer N是纵向的减均值，求方差

遥远的阿勒泰

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
15-1 YOLO、VIT

loss（bbox regression loss+classification loss）对RPN网络进行训练，RPN生成的proposal再送到。two-stage：two-stage算法会先使用一个网络生成proposal，如selective search和RPN网络，one-stage ：One-stage追求速度舍弃了two-stage架构，即不再设置单独网络生成proposal，而。是直接在feature map上进行密集抽样，产生大量的先验框，如YOLO的网格方法。
复制链接

扫一扫