![](https://img-blog.csdnimg.cn/20210418140831255.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
目标检测(YOLO)
文章平均质量分 89
计算机视觉、目标检测理论和项目分享
AI大道理
这个作者很懒,什么都没留下…
展开
-
YOLOv9:一个关注信息丢失问题的目标检测
YOLOv9的PGI技术包括辅助可逆分支和多级辅助信息,这些设计有助于在网络的深层中保留更多的信息,生成更可靠的梯度,从而在训练过程中确保了更准确的目标与输入之间的关联。YOLOv9的PGI技术包括辅助可逆分支和多级辅助信息,这些设计有助于在网络的深层中保留更多的信息,生成更可靠的梯度,从而在训练过程中确保了更准确的目标与输入之间的关联。在深度网络的训练过程中,由于层与层之间的复杂映射,有用的信息可能会逐渐丢失,这会导致梯度信号变弱,最终影响网络的学习效率和预测准确性。原创 2024-07-08 22:16:51 · 699 阅读 · 0 评论 -
YOLOv10:无需NMS的目标检测新范式(强的离谱)
本本来自公众号“AI大道理”。原创 2024-06-25 13:44:26 · 530 阅读 · 0 评论 -
YOLO v8:目标检测的最新王者
本文来自公众号“AI大道理”——————Yolov8是Yolo系列模型的最新王者,各种指标全面超越现有目标检测模型。Yolov8借鉴了Yolov5、Yolov6、YoloX等模型的设计优点,全面改进了Yolov5模型结构,同时保持了Yolov5工程化简洁易用的优势。1、YOLOV8的改进1)Backbone2)Neck3)Head4)Loss计算5)标签匹配策略2、BackboneYOLOv8的backbone使用C2f模块代替C3模块。原创 2024-03-14 20:08:15 · 1457 阅读 · 0 评论 -
YOLO v6:一个硬件友好的目标检测算法
YOLOv6对解耦头进行了精简设计,同时综合考虑到相关算子表征能力和硬件上计算开销这两者的平衡,采用 Hybrid Channels 策略重新设计了一个更高效的解耦头结构,在维持精度的同时降低了延时,缓解了解耦头中 3x3 卷积带来的额外延时开销。原始 YOLOv5 的检测头是通过分类和回归分支融合共享的方式来实现的,而 YOLOX 的检测头则是将分类和回归分支进行解耦,同时新增了两个额外的 3x3 的卷积层,虽然提升了检测精度,但一定程度上增加了网络延时。用此度量替换IoU以分配对象标签。原创 2023-01-01 23:41:42 · 2676 阅读 · 1 评论 -
Yolov3-v5正负样本匹配机制
本文来自公众号“AI大道理”。什么是正负样本?正负样本是在训练过程中计算损失用的,而在预测过程和验证过程是没有这个概念的。正样本并不是手动标注的GT。正负样本都是针对于算法经过处理生成的框而言,而非原始的GT数据。正例是用来使预测结果更靠近真实值的,负例是用来使预测结果更远离除了真实值之外的值的。训练的时候为什么需要进行正负样本筛选?在目标检测中不能将所有的预测框都进入损失函数进行计算,主要原因是框太多,参数量太大,因此需要先将正负样本选择出来,再进行损失函数的计算。原创 2022-11-10 09:23:05 · 3032 阅读 · 2 评论 -
AI大视觉(十五) | 损失函数进化史:MSE、IOU、GIOU、DIOU、CIOU、EIOU
本文来自公众号“AI大道理目标检测任务的损失函数由两部分构成:Classification Loss和Bounding Box Regeression Loss。Smooth L1 LossL1 Loss(Mean Absolute Error,MAE)平均绝对误差(MAE)是一种用于回归模型的损失函数。MAE 是目标变量和预测变量之间绝对差值之和,因此它衡量的是一组预测值中的平均误差大小,而不考虑它们的方向,范围为 0~∞。MAE公式:MAE导数:MA.原创 2021-07-31 11:38:53 · 2973 阅读 · 0 评论 -
公众号《AI大道理》征稿函
公众号《AI大道理》将进行长期征稿。本征稿令主要征收AI相关知识、新闻、职场简历、项目实战、学习经验等等稿件。AI包括计算机视觉、语音识别、自然语言处理三大块。计算机视觉包括分类、目标检测、识别、图像分割四大块。语音识别包括传统语音识别、HMM-GMM、Kaldi、端到端语音识别、CTC、Transformer等等自然语言处理包括机器翻译、聊天机器人等等。征稿类型:1、计算机视觉类(CV):计算机视觉相关知识总结分享,计算机视觉最新论文解读,最新新闻分享,计算机视觉原创 2021-11-10 18:46:48 · 2326 阅读 · 0 评论 -
AI大视觉(二十) | 小目标检测的tricks汇总
本文来自公众号“每日一醒”在计算机视觉中,检测小目标是最有挑战的问题之一。本文汇总了一些有效的策略。为何小目标(1)基于相对尺度物体宽高是原图宽高的1/10以下的可以视为小目标。目标边界框面积与图像面积的比值开方小于一定值(较为通用的值为0.03)的可以视为小目标。(2)基于绝对尺度通常认为绝对尺寸小于32×32的物体可以视为小目标。小目标为什么难检测?(1) 可利用特征少低分辨率的小目标可视化信息少,难以提取到具有鉴别力的特征,并且极易受到.原创 2021-08-24 21:56:35 · 1786 阅读 · 1 评论 -
AI大视觉(十六) | SPP(空间金字塔池化)
本文来自公众号“AI大道理SPP对于一个CNN模型,可以将其分为两个部分:前面包含卷积层、激活函数层、池化层的特征提取网络,下称CNN_Pre,后面的全连接网络,下称CNN_Post。许多CNN模型都对输入的图片大小有要求,实际上CNN_Pre对输入的图片没有要求,可以简单认为其将图片缩小了固定的倍数,而CNN_Post对输入的维度有要求。SPP:空间金字塔池化,无论CNN_Pre输出的feature maps尺寸是怎样,都能输出固定的维度传给CNN_Post。SP.原创 2021-08-03 15:41:25 · 4085 阅读 · 1 评论 -
AI大视觉(十四) | Yolo v4的改进思想
本文来自公众号“AI大道理YOLO V4就是筛选了一些从YOLO V3发布至今,被用在各式各样检测器上,能够提高检测精度的tricks,并以YOLO V3为基础进行改进的目标检测模型。YOLO V4在保证速度的同时,大幅提高模型的检测精度。YOLOV4的改进1、backbone:CSPDarkNet532、neck:SPP+PAN3、head:YOLOv34、DropBlock正则化5、数据增强:CutMix、马赛克(Mosaic)、自对抗训练6、训练用到的小技.原创 2021-07-29 09:11:43 · 1165 阅读 · 0 评论 -
AI大视觉(十三) | 评价指标mAP的解析与绘
本文来自公众号“AI大道理”在目标检测中,每张图片可能包含多个类别的多个目标。目标检测模型的评价需要同时评价模型的定位、分类效果。因此,在图像分类问题中常使用的 precision 指标不能直接用于目标检测。这时 mAP 进入了人们的视野。IOUIOU衡量预测框和真实框的重合程度。计算IOU的公式为:TP TN FP FN的概念对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive)、假正例(false .原创 2021-07-22 18:20:08 · 939 阅读 · 1 评论 -
AI大视觉(十二) | 1x1卷积核为什么有效?
本文来自公众号“AI大道理”之前只是知道1x1的卷积核用在Inception模块中具有降维的作用,并没有认真的思考它是怎么样实现降维的,以及它还有哪些作用。控制特征图的深度1x1的卷积核由于大小只有1x1,所以并不需要考虑像素跟周边像素的关系,它主要用于调节通道数,对不同的通道上的像素点进行线性组合,然后进行非线性化操作,可以完成升维和降维的功能。如下图所示,选择2个1x1大小的卷积核,那么特征图的深度将会从3变成2,如果使用4个1x1的卷积核,特征图的深度将会由3变成4。.原创 2021-07-06 10:24:13 · 519 阅读 · 1 评论 -
AI大视觉(十一) | Yolo v3 如何进行训练?
本文来自公众号“AI大道理”yolov3训练的loss是在特征层上进行求解的。所以不管是预测值,还是真实值都要映射到特征层上。这是一个双向奔赴的过程。loss求解(1)输入图片进行数据增强。(2)将图片输入yolov3网络获得三个特征层的预测结果。(3)三个有效特征层循环计算损失。(4)反向传播进行训练。由于YOLOv3将分类预测改为回归预测,分类损失函数便换成了二值交叉熵损失函数。Loss 要计算: 中心点的 Loss 宽.原创 2021-07-04 11:56:31 · 2036 阅读 · 3 评论 -
AI大视觉(十) | Yolo v3中关于交叉熵与均方差损失函数的思考
本文来自公众号“AI大道理”损失函数(误差函数)是关于模型输出和样本标签值之差的函数,通过对误差函数求导来调节权重参数。本质:选取恰当的函数来衡量模型输出分布和样本标签分布之间的接近程度。功能:调节权重参数损失函数是网络学习的指挥棒,它引导着网络学习的方向——能让损失函数变小的参数就是好参数。所以,损失函数的选择和设计要能表达你希望模型具有的性质与倾向。交叉熵损失函数交叉熵是用来衡量两个概率分布的距离。使用交叉熵的背景:通过神经网络解决分类问题时,一般会.原创 2021-07-03 12:02:12 · 1029 阅读 · 0 评论 -
AI大视觉(九) | Yolov3 如何进行预测?
本文来自公众号“AI大道理”yolo v3的预测结果就是我们想要的最终的预测框。从原始图片到框出物体的图片,这中间经历了什么呢?预测过程(1)添加灰条yolo v3需要输入416*416大小的图片,然而我们采集的图片未必都是这样的尺寸。若直接resize,图片会被拉伸导致失真的。给图像增加灰条,实现不失真的resize。(2)获得预测参数这样输入后就可以获得网格的预测结果,将结果保存到list里面。预测结果即先验框的调整参数。训练的就是这些调整参数。.原创 2021-06-24 09:22:59 · 3023 阅读 · 1 评论 -
AI大视觉(八) | Yolov3 如何调整先验框进行解码?
本文来自公众号“AI大道理”解码就是将预测得到的调整参数应用于先验框,从而得到预测框。解码原理YOLOv3借鉴RPN网络使用anchor boxes来预测边界框相对先验框的offsets。YOLOv3预测边界框中心点相对于对应cell左上角位置的相对偏移值,使用sigmoid函数处理偏移值,这样预测的偏移值在(0,1)范围内(每个cell的尺度看做1),把边界框中心点约束在当前cell中。根据边界框预测的4个offsetstx,ty,tw,th,可以按如下公式计算出边界框实...原创 2021-06-22 17:18:07 · 2756 阅读 · 7 评论 -
AI大视觉(七) | 残差网络在解决什么问题?
本文来自公众号“AI大道理”为什么会有ResNet?神经网络叠的越深,则学习出的效果就一定会越好吗?答案无疑是否定的,人们发现当模型层数增加到某种程度,模型的效果将会不升反降。也就是说,深度模型发生了退化情况。那么,为什么会出现这种情况?按理说,当我们堆叠一个模型时,理所当然的会认为效果会越堆越好。因为,假设一个比较浅的网络已经可以达到不错的效果,那么即使之后堆上去的网络什么也不做,模型的效果也不会变差。然而事实上,这却是问题所在。“什么都不做”恰好是当前神经网络..转载 2021-06-22 10:17:08 · 413 阅读 · 0 评论 -
AI大视觉(六) | 特征金字塔(FPN)如何进行特征融合?
本文来自公众号”AI大道理“在深度学习的很多工作中(例如目标检测、图像分割),融合不同尺度的特征是提高性能的一个重要手段。低层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多。高层特征具有更强的语义信息,但是分辨率很低,对细节的感知能力较差。如何将两者高效融合,取其长处,弃之糟泊,是改善分割模型的关键。图像金字塔(Featurized image pyramid)传统方法,通过对图像进行降采样处理,提取每层图像的特征,然后在每层...原创 2021-06-11 11:23:23 · 5831 阅读 · 1 评论 -
AI大视觉(五) | YOLOv3网络详解与代码实现
本文来自公众号“AI大道理”在YOLOv3中继续改进,提出了一个更深的、借鉴了ResNet和的FPN的网络Darknet-53。darknet-19YOLO作者自己写的一个深度学习框架叫darknet,后来在YOLO9000中又提出了一个19层卷积网络作为YOLO9000的主干,称为Darknet-19。这两者都是用于提取特征的主干网络。网络使用了较多的3 * 3卷积核,在每一次池化操作后把通道数翻倍。借鉴了network in network的思想,网络使用了...原创 2021-06-10 14:05:01 · 1087 阅读 · 1 评论 -
AI大视觉(四) | Yolo v3 的改进思想
本文来自公众号“AI大道理”转自 | 青云原文 |https://blog.csdn.net/m0_45962052/article/details/105199178YOLO v3 是目前工业界用的非常多的目标检测的算法。YOLO v3 没有太多的创新,主要是借鉴一些好的方案融合到 YOLO v2 里面。不过效果还是不错的,在保持速度优势的前提下,提升了预测精度,尤其是加强了对小物体的识别能力。YOLO v3 主要的改进有:(1)调整了网络结构;(2)利用多尺..转载 2021-06-09 10:26:58 · 3740 阅读 · 0 评论 -
AI大视觉(三) | Yolo v2的改进思想
本文来自公众号“AI大道理” YOLO v2 是 YOLO v1的进阶版,它没有彻底否定 YOLO v1,而是在 YOLO v1 的基础上,融合了很多其它论文优秀的思想做了大幅的提升。YOLO v1 比较低的召回率和比较高的定位误差。所以,让 YOLO v1变得更好指的是保持准确率的情况下: 提升召回率 降低定位误差 YOLO v2的思想1)Batch NormalizationBatch Norm...原创 2021-06-08 16:16:57 · 438 阅读 · 0 评论 -
AI大视觉(二) | Yolo v1 为何只要看一眼就够了?
本文来自公众号“AI大道理”RCNN系列属于候选区域/窗 + 深度学习分类的两步走方法。即使是该系列最好的模型还是无法达到实时检测目标的效果,获取region proposal, 再对每个proposal分类计算量还是较大。灵魂的拷问:两步走无法再进一步了,那能否一步到位?YOLO,you only look once,就是一步到位的算法。它去掉了获得候选区域的这一步。那它是怎么去掉的呢?去掉后性能又会有怎么样的影响呢?YOLO v1的思想YOLO创造性的将物体...原创 2021-04-22 13:17:57 · 413 阅读 · 0 评论 -
AI大视觉(一) | RCNN系列
本文来自公众号“AI大道理”目标检测不仅要用算法判断图片中是不是一只鱼,还要在图片中标记出鱼的位置,用边框把鱼框起来,这就是目标检测问题。其中“定位”的意思是判断鱼在图片中的具体位置。滑动窗口分类法(原始)(AI大视觉:撒小渔网,一个小渔网从最旁边的地方撒下去,看有没有鱼,然后移动该渔网继续捕鱼)首先对输入图像进行不同窗口大小的滑窗进行从左往右、从上到下的滑动。每次滑动时对当前窗口执行分类器(分类器是事先训练好的)。如果当前窗口得到较高的分类概率,则认为检测到了物体。.原创 2021-04-18 14:19:21 · 296 阅读 · 0 评论