【深度学习】【论文阅读】YOLOv1、v2

YOLO(You Only Look Once)是一种实时目标检测系统,以其高速度和全局理解能力而著称。YOLOv1采用回归方法,以全局视角预测物体,具有良好的泛化能力。YOLOv2通过引入Batch Normalization、高分辨率分类器、Anchor Boxes和多尺度训练等改进策略,提升了检测精度。同时,YOLOv2利用k-means聚类优化先验框,进一步提高了模型的学习效率。
摘要由CSDN通过智能技术生成

【论文阅读】YOLOv1、v2

YOLOv1

First, YOLO is extremely fast.Since we frame detection as a regression problem we don’t need a complex pipeline.Second, YOLO reasons globally about the image when making predictions. Unlike sliding window and region proposal-based techniques, YOLO sees the entire image during training and test time so it implicitly encodes contextual information about classes as well as their appearance.Third, YOLO learns generalizable representations of ob- jects. Since YOLO is highly generalizable it is less likely to break down when applied to new domains or unexpected inputs.

  • YOLO很快,因为采用回归的方法
  • YOLO会基于整个图片进行预测
  • YOLO学到的图片特征更通用,更能适应新的领域

网络架构

在这里插入图片描述

  • 输入图片大小: 448 × 448 448\times 448 448×448
  • 24个卷积层+2个全连接层
  • 采用Leaky ReLU激活函数,最后一层采用线性激活函数
  • 经过卷积层后的输出: [ N , 1024 , 7 , 7 ] [N,1024,7,7] [N,1024,7,7]
  • 经过全连接层后的输出: [ N , 7 ∗ 7 ∗ 30 ] [N,7*7*30] [N,7730]
  • reshape后: [ N , 7 , 7 , 30 ] [N,7,7,30] [N,7,7,30]

对输出的解释
所谓7x7是将图片分为了7x7的网格,对应的每个网格负责两个预测框,那么30是由 ( 4 + 1 ) ∗ 2 + 20 得 到 (4+1)*2+20得到 (4+1)2+20,4代表 ( x c e n t e r , y c e n t e r , w , h ) (x_{center},y_{center},w,h) (xcenter,ycenter,w,h),1代表是否处于被检测物体的置信度,如果没有物体在该框,则值为0,如果有物体在该框,则值的意义为预测框与gt box的IoU,20代表20个类别置信度(一个网格只预测一次类别置信度) P ( c l a s s i ∣ o b j e c t ) P(class_i|object) P(classio

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值