图像识别技术与应用（十八）

最新推荐文章于 2025-05-18 13:01:41 发布

苏小夕夕

最新推荐文章于 2025-05-18 13:01:41 发布

阅读量1.1k

点赞数 38

文章标签： YOLO yolov4 机器学习深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_82413059/article/details/146249873

版权

本节课讲解了YOLO系列中的YOLOv4，YOLOv4作为目标检测领域的重要算法，极大地提升了检测的速度与精度。课程从其核心原理入手，剖析了骨干网络CSPDarknet53如何高效提取图像特征，以及FPN+PAN结构怎样实现多尺度特征融合，让模型对不同大小目标都能精准识别。在学习过程中，还深入了解了数据增强、损失函数设计等关键技术，明白了它们在提升模型性能中所发挥的作用。通过代码实践与案例分析，切实掌握了YOLOv4在实际场景，如智能安防、自动驾驶物体识别中的应用流程。这次学习不仅丰富了对目标检测技术的认知，更积累了算法应用与优化的经验，为今后在计算机视觉领域的深入探索筑牢了基础。

YOLOv4

整体介绍（Optimal Speed and Accuracy of Object Detection）

V4贡献：

亲民政策，单GPU就能训练的非常好，接下来很多小模块都是这个出发点

两大核心方法，从数据层面和网络设计层面来进行改善

消融实验，感觉能做的都让他给做了，这工作量不轻

全部实验都是单GPU完成，不用太担心设备了

Bag of freebies(BOF)

只增加训练成本，但是能显著提高精度，并不影响推理速度

数据增强：调整亮度、对比度、色调、随机缩放、剪切、翻转、旋转

网络正则化的方法： Dropout、 Dropblock等

类别不平衡，损失函数设计

Mosaic data augmentation

方法很简单，参考CutMix然后四张图像拼接成一张进行训练

数据增强

Random Erase：用随机值或训练集的平均像素值替换图像的区域

Hide and Seek：根据概率设置随机隐藏一些补丁

Self-adversarial-training(SAT)

通过引入噪音点来增加游戏难度

DropBlock

之前的dropout是随机选择点(b) ，现在吃掉一个区域

Label Smoothing

神经网络最大的缺点：自觉不错（过拟合），让它别太自信

例如原来标签为（0,1）：

使用之后效果分析（右图）：簇内更紧密，簇间更分离

IOU损失

IOU损失： (也经常1-IOU)

没有相交则IOU =0无法梯度计算，相同的IOU却反映不出实际情况到底咋样

GIOU损失

公式：

引入了最小封闭形状C（ C可以把A ， B包含在内）

在不重叠情况下能让预测框尽可能朝着真实框前进

但是这种情况下又完了。。。

DIOU损失

公式：

其中分子计算预测框与真实框的中心点欧式距离d

分母是能覆盖预测框与真实框的最小BOX的对角线长度c

直接优化距离，速度更快，并解决GIOU问题

CIOU损失

损失函数必须考虑三个几何因素：重叠面积，中心点距离，长宽比

其中α可以当做权重参数

DIOU-NMS

之前使用NMS来决定是否删除一个框，现在改用DIOU-NMS

公式：

不仅考虑了IoU的值,还考虑了两个Box中心点之间的距离

其中M表示高置信度候选框， Bi就是遍历各个框跟置信度高的重合情况

SOFT-NMS

Bag of specials(BOS)

增加稍许推断代价，但可以提高模型精度的方法

网络细节部分加入了很多改进，引入了各种能让特征提取更好的方法

注意力机制，网络细节设计，特征金字塔等

SPPNet(Spatial Pyramid Pooling)

V3中为了更好满足不同输入大小，训练的时候要改变输入数据的大小

SPP其实就是用最大池化来满足最终输入特征一致即可

CSPNet（ Cross Stage Partial Network）

每一个block按照特征图的channel维度拆分成两部分

一份正常走网络，另一份直接concat到这个block的输出

CBAM

V4中用的是SAM ，也就是空间的注意力机制

不光NLP,语音识别领域在搞attention ， CV中也一样

YOLOV4中的Spatial attention module

一句话概述就是更简单了，速度相对能更快一点

PAN(Path Aggregation Network)

自顶向下的模式，将高层特征传下来

这就得轮到PAN登场了，思想也很简单

PAN(Path Aggregation Network)

引入了自底向上的路径，使得底层信息更容易传到顶部

并且还是一个捷径，红色的没准走个100层(Resnet) ，绿色的几层就到了

YOLOV4中并不是加法，而是拼接

Mish

Relu有点太绝对了， M ish更符合实际

公式：f(α)=·tanh(ln(1+ew))

但是计算量确实增加了，效果会提升一点

eliminate grid sensitivity

坐标回归预测值都在0-1之间，如果在grid边界怎么表示？此时就需要非常大的数值才可以达到边界

为了缓解这种情况可以在激活函数前加上一个系数（大于1的）：

公式：

整体网络架构

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。