深度图像确定目标距离_深度学习图像目标检测:读懂目前工业界最青睐的YOLO V3...

本文介绍了YOLO(You Only Look Once)的目标检测模型,特别是其最新版本YOLO v3。YOLO v3以其高性能和高准确性受到业界青睐,其核心特点是端到端训练,使用卷积神经网络直接预测边界框位置和类别。文章详细阐述了YOLO v3的结构,包括Darknet-53主干网络、残差块、多尺度检测以及输出层的设计。此外,还提到了实现YOLO v3的资源链接。
摘要由CSDN通过智能技术生成

You Only Look Once,YOLO.

c03c15e14712e046db775fa4357a1b12.png

YOLO 的核心思想:利用整张图作为网络的输入,直接在输出层回归 bounding box(边界框) 的位置及其所属的类别。

yolo虽然有三个版本,由于yolo v3在性能和准确性基本上秒杀前两个版本,甚至官网都没有给出下载老版本的链接。因此,我们仅需读懂yolo v3模型结构即可。

细节:

  • 卷积的本质是提取图片的特征,分类是其他层做的事情。
  • 通过划分单元格做检测。
  • 多尺度训练。
  • 端到端训练,只使用一个loss funtion。即只关注输入和输出
  • 使用激活函数:“leaky ReLU”。
  • 使用batch normalization作为正则化、加速收敛和避免过拟合的方法。后文简写为BN。
  • 新的基本单元DarknetConv2D_BN_Leaky,即卷积+BN+leaky ReLU(激活函数)。
  • 残差单元resblock=DarknetConv2D_BN_Leaky+...+DarknetConv2D_BN_Leaky +add
  • 残差单元体resblock_body。zeropadding+DarknetConv2D_BN_Leaky+resblock。
  • anchors的9个参数是用聚类方式获得,格式为w_1,h_1,w_2,h_2,...w_9,h_9。
  • 结构中没有池化和全连接层,使用步长为2的卷积达到图片缩小的目的。
  • 输入图片尺寸固定416*416。
  • 主干网络是darknet-53,共252层。

结构:

  1. 如下图所示,输入416*416图片。经过尺寸为3*3的32个卷积DarknetConv2D_BN_Leaky层。
  2. 依次经过重复单元依次为1、2、8、8、4的5个残差体(resblock_body)。
  3. 残差体中DarknetConv2D_BN_Leaky单元的步长为2。
  4. 经过残差体的2次步长为2的卷积,图片尺寸缩小为以前的1/32。
  5. 生成y1、y2、y3三个结果。
  6. 输出尺寸分别为13*13*255、26*26*255、52*52*255。
  7. 输出深度为255=3*(5+80),每个单元3个box,box有(x, y, w, h, confidence)五个基本参数,coco数据集的种类是80.
  8. 中间层和后面的某一层的上采样进行拼接。拼接的操作和残差层add的操作是不一样的,拼接会扩充张量的维度,而add只是直接相加不会导致张量维度的改变。
406c2edfde24f375db3e56ff4c93c395.png

yolo v3 基本结构

实现:

darknet官网

pjreddie.com/darknet/

keras实现yolo3

github.com/qqwweee/keras-yolo3

tensorflow实现yolo3

github.com/wizyoung/YOLOv3_TensorFlow

You Only Live Once.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值