yolov3网络结构_【AI论技】YOLOv3在标的物资产实时管理中的应用-CSDN博客

本文链接：https://blog.csdn.net/weixin_39915210/article/details/111286480

本文介绍了YOLOv3目标检测模型在仓储资产管理中的应用，通过精准盘点和实时流水计量提升运营效率。YOLOv3采用Darknet-53基础网络，通过多尺度预测提高了小目标检测性能。在仓库场景中，使用YOLOv3进行货物盘点，准确率超过99%，并能实现实时出入库计量，显著提高了仓库管理的自动化和精确度。

摘要由CSDN通过智能技术生成

众所周知，目标检测是计算机视觉领域的核心问题之一，广泛应用于智能视频监控、工业检测、自动驾驶等领域。随着深度学习在图像分类研究中取得突破，带动了目标检测取得突飞猛进的发展。其中Yolov3目标检测模型不仅在速度和精度上都有均衡的性能，而且在工业实时检测应用中表现优异。

例如在标的物资产管理领域，面对仓库面积大，货物资产多，单次盘点费时费力导致盘点周期长，管理粗放不精细；货物流转进出库频繁，难以实时更新库存、进行远程监管等难题；计算视觉物品检测识别解决方案可以减少人力重复性工作，提高运营效率，实现无人化、数字化智能管理。

本文由品览高级算法研究员张璐，为大家解读如何使用YOLOv3模型对仓储物品资产进行精准盘点，对出入库货物进行实时流水计量。

张璐

品览高级算法研究员

• 毕业于南昌大学
• 3年国企研发中心经验

01 Yolov3 基础网络

Yolov3采用Darknet-53作为基础网络(图1为基础网络结构图)，网络中使用类似于resnet的残差结构，利用shortcut的思想来解决网络层数深，梯度消失的问题。同时采用全卷积网络代替池化层和全连接层，在前向传播过程中，张量的尺寸变换主要通过改变卷积核的步长来实现(stride=2)，经历5次下采样后，最终输出的feature map尺寸将缩小为原输入尺寸的1/32。若输入为416x416，则输出为13x13(416/32=13)。

图1 Yolov3 基础网络结构

Darknet-53与其他基础网络速度精度对比如图2所示：

图2 Darknet-53 与其他基础网络对比 02

Yolov3 模型结构

图3 Yolov3模型结构

图片来源：https://blog.csdn.net/leviopku/article/details/82660381 相比yolov2, yolov3的主要改进之一是predictions across scales, 如图3所示，yolov3最终输出3个不同尺度的feature map, 该思想借鉴了FPN(feature pyramid networks), 采用多尺度对不同size的目标进行检测，越精细的grid cell就可以检测出越精细的物体，对小目标更加友好。

当输入图像尺寸为416×416时，输出3个feature map的尺度分别为13，26，52，其深度都是255(对于coco的80个类别而言),不同尺度的feature map如何实现拼接也有一番讲究，其使用stride为2的上采样来保证concat拼接的张量尺度相同，从而实现不同尺度feature map的拼接(分别是26x26尺度拼接及52x52尺度拼接)。

需要注意concat的操作和残差层add的操作是不一样的，concat会扩充张量的维度，而add只是直接相加不会导致张量维度的改变。

03 Yolov3 的检测性能 (1) Bounding Box Prediction yolov3每个位置采用3个先验框，由来是使用k-means对数据集groundtruth聚类得到9个先验框，并将其划分到3个尺度特征图上，尺度更大的特征图使用更小的先验框，这也是相比yolov2的改进点之一，提出groundtruth聚类思想可以使得到的先验框更贴合实际尺寸(图4为在coco数据集上不同尺度的先验框信息)。

图4 不同尺度先验框信息对于一个anchorbox，它包含坐标信息(x , y , w , h )以及置信度，同时还包含所有的类别信息:即每个anchor输出(5+classes)维度的向量。 (2) Class Prediction yolov3在对b-box进行预测的时候，采用了多个logistic分类器替代原来的Softmax，分类损失采用binary cross-entropy loss，每个框使用多标签分类来预测边界框可能包含的类，因为多标签方法可以更好地对数据建模并且经过验证准确率不会下降。

图5 yolov3与其他检测模型精度及速度对比 04 Yolov3 在资产盘点管理中的应用 (1) yolov3应用于仓库货物资产盘点管理 使用yolov3训练模型对仓库存储的物品数据进行采集盘点：将模型直接部署在服务器，无人叉车按照规划路径对仓库货架上的物品进行视频拍摄，拍摄完毕后上传至云端，使用部署的模型检测识别,输出货物类型、名称及数量，盘点准确率可达99%以上。

图6 仓库实景物品盘点效果图仓库实景物品数据训练yolov3的模型，输入图片尺寸为608，模型训练的map为99.34%，验证集合200张图片前向时间10s,前向速度为20fps/s,(图7是训练仓库实景数据模型map)

图7 yolov3训练仓库实景数据模型map (2) yolov3应用于仓库货物资产出入库计量 Yolov3预测速度快精度高，适合用于实时预测，实践表明在v100上，图片输入尺寸为416时，yolov3的前向可达30fps/s。在仓库出入口处部署硬件设备获取实时视频流，对视频流进行逐帧检测；结合出入库操作的要求，对检测结果进行相应的逻辑检验，完全可以实时反馈货物出入库情况及是否合规。(图8是仓库实景货物出入库计数效果展示图)

图8 货物进出库计数效果

参考文献： Joseph Redmon, Ali Farhadi,’ YOLOv3: An Incremental Improvement’, IEEE Conference on Computer Vision and Pattern Recognition，8 Apr 2018 >> 往期回顾 <<