yolov3损失函数改进_基于改进损失函数的YOLOv3网络

本文针对YOLOv3目标检测模型进行改进,通过对损失函数的优化,减少了梯度消失的问题,提高了网络收敛速度。通过分析目标尺寸分布修正anchor box,进一步增强模型性能。实验结果显示,在Pascal VOC数据集上,模型准确率提升约1个百分点,同时收敛速度加快,验证了改进的有效性。
摘要由CSDN通过智能技术生成

目标检测具有广阔的发展前景和巨大的商业价值, 已经成为国内外相关从业者的研究热点, 在智能安防、自动驾驶等领域具有广泛应用. 经典的目标检测方法有Dalal于2005年提出的基于HOG特征的检测方法[, Felzenswalb等人于2008年提出的可变行组件模型(Deformable Part Model, DPM)检测方法[, 该方法先利用梯度算子计算出目标物体的HOG特征并采用滑动窗口+SVM的方法进行分类, 在目标检测问题中表现良好.

与经典方法相比, 深度神经网络提取特征能力强, 准确率高, 在计算机文本、图像分析等领域取得令人瞩目的成果, 受益于深度学习的快速发展, 基于卷积神经网络(CNN)的目标检测模型层出不穷, 检测效果不断提升, Girshick R等人于2014年提出R-CNN网络[, 采用选择性搜索(selective search)方法代替传统的滑动窗口, 将VOC2012数据集上目标检测平均准确率(mean Average Precision, mAP)提高了30%; Girshick R和Ren SQ等人相继提出了Fast R-CNN[与Faster R-CNN[网络, Faster R-CNN采用区域推荐网络(Region Proposal Network, RPN)生成候选框, 再对这些候选框进行分类和坐标回归, 检测精度大幅提升, 检测速度约5 fps, 这些方法由于生成候选框和进行预测分成两个步骤进行, 所以称为为Two-Stage方法, 同时进行这两种操作的网络称为One-Stage方法, 代表有YOLO[, SSD[等. 2016年Redmon J等提出YOLO网络, 其特点是将生成候选框与分类回归合并成一个步骤, 预测时特征图被分成S×S(S为常数, 在YOLOv1中取7)个cell, 对每个cell进行预测, 这就大大降低了计算复杂度, 加快了目标检测的速度, 帧率最高可达45 fps, 之后, Redmon J再次提出了YOLOv2[, 与前代相比, 在VOC2007测试集上的mAP由67.4%提高到76.8%, 然而由于一个cell只负责预测一个物体, 面对被遮挡目标的识别表现不够好. 2018年4月, YOLO发布第三个版本YOLOv3[, 在COCO数据集上的mAP-50由YOLOv2的44.0%提高到57.9%, 与mAP61.1%的RetinaNet[相比, RetinaNet在输入尺寸500×500的情况下检测速度约98 ms/帧, 而YOLOv3在输入尺寸416×416时检测速度可达29 ms/帧, 在保证速度的前提下, 达到了很高的准确率.

为了实现实时分析的目标, 本文针对One-Stage方法的代表YOLOv3网络模型进行研究和改进, 根据坐标预测值和Sigmoid函数的特殊性质, 将原版的损失函数进行优化, 不仅减少了梯度消失的情况, 而且可以使网络收敛更加快速, 同时通过分析数据集中目标的分布情况修正anchor box, 使得anchor box更加符合目标尺寸, 增强收敛效果, 在Pascal VOC[数据集上的实验表明, 在不影响检测速度的情况下准确率提高了1个百分点左右, 且收敛速度变快, 使目标检测能力进一步提升.

1 传统YOLOv3网络

YOLO网络将目标检测问题转化为回归问题, 合并分类和定位任务到一个步骤, 直接预测物体的位置及类别, 检测速度可以满足实时分析的要求. YOLOv3包含了新的特征提取网络Darknet-53, 以及三种尺度的YOLO层, 也就是预测层. 通过在三种尺度上进行预测的方法, 有效的增强了对不同大小物体及被遮挡物体的检测效果, 并引入跃层连接以强化收敛效果, 同时采用随机多尺度训练的方式增强了鲁棒性.

1.1 检测过程

YOLOv3提出了新的提取图片特征的网络Darknet53, 作为全卷积网络, darknet53主要由卷积层、Batch Normalization及跃层连接组成, 激活函数采用LeakyRelu, 其网络结构如

图 1

Fig. 1

图 1 YOLOv3的网络结构

YOLO卷积层负责输出检测结果, 包括目标的中心位置xy, 宽高wh, 置信度, 以及类别, 这种检测分别在三个尺度上进行, 13×13, 26×26, 52×52, 通道数为3, 也就是每个box负责对三个anchor box进行回归, 取其中的一个作为最终检测结果, 共对9个anchor box进行回归, 所以对于一张输入图像, 最后的输出尺寸为1×(3×(13×13+26×26+52×52))×(5+k) = 1×10647×(5+k), k代表类别数, 在COCO数据集上为80, VOC数据集上为20, 如

图 2

Fig. 2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值