YOLOV3输出tensor的解读

papaofdoudou

已于 2022-08-03 13:06:43 修改

阅读量4k

点赞数 10

分类专栏：多媒体人工智能嵌入式系统文章标签：深度学习 pytorch 人工智能

于 2022-03-18 15:25:20 首次发布

本文链接：https://blog.csdn.net/tugouxp/article/details/123575626

版权

YOLOV3模型有3个输出tensor，对应输入图像的32倍、16倍和8倍下采样。每个tensor表示不同尺度的检测，用于检测不同大小的物体。每个小方格有3个anchor box，总共可检测10647个物体。输出tensor维度为(batchsize, 10647, 85)，其中85包含位置、置信度和类别概率信息。" 107527744,8035154,MySQL基础操作详解,"['数据库管理', 'SQL查询', '表连接', '数据操作', '存储过程']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

用过YOLOV3模型的人都知道，YOLOV3网络有3个输出tensor，他分别是对输入RGB三通道图像的32倍，16倍以及8倍的下采样，YOLOV3支持三种尺寸的图像输入，分别是320x320,416x416以及608x608，我们以416X416为例，输入和输出示意图如下：

Yolo v3 采用 FPN（Feature Pyramid Network，特征金字塔结构，就是多种尺寸的特征图构成金字塔结构) 网络的思路输出多尺度特征，效果很好,对于如上的tensor输出，它的维度顺序是怎样的呢？在百思不得其解的情况下，就需要看代码来解惑了。我们找到darknet的代码后处理实现部分，关键流程在函数forward_yolo_layer中：

我们关注entry_index的实现：

我们知道，根据YOLOV3论文中的说法，以416X416尺寸的输入图像为例，YOLOV3是将其按照 13x13,26x16,52x52分割成小块，如下图的样子，用示意图表示如下,原图尺寸是1200x741.

先用FFMPG将其转换为416X416NV12格式：

ffmpeg -i beauty.jpeg -pix_fmt nv12 -s 416x416 beauty.nv12.yuv

之后，用命令查看：

ffplay -pix_fmt nv12 -f rawvideo -video_size 416x416 ./beauty.nv12.yuv

可以看到，图像scale的目的已经达到了：

开发程序，分别对图像进行32倍，16倍和8倍下采样，画出网格：

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <math.h>
#include <stddef.h>
#include <stdint.h>
#inc

最低0.47元/天解锁文章