目标检测中的b-box回归损失函数(IOU,GIOU,DIOU,CIOU)

目标检测作为一种经典CV任务,大致可以认为是三个子任务的集合:1. 确定目标大概位置;2. 分类出目标类别;3. 回归出检测框的宽高;

这三种子任务分别需要对应损失函数的反传来学习。今天介绍的b-box回归损失函数主要是面向第三个子任务而设计的损失函数。


1. IOU

全称Intersection-Over-Union,即交并比。计算预测框和标注框(即GT框)的交并比,就可以知道它们的“贴合程度”好不好,作为调整模型的指导

原文链接:[1608.01471] UnitBox: An Advanced Object Detection Network (arxiv.org)

指两个b-box之间交集部分的面积比并集的面积:

IOU = 绿色面积/(蓝色面积+绿色面积+橙色面积)

而IOU loss可以简单表示为:L_{IOU} = 1 - IOU

一个简单的python实现:https://blog.csdn.net/leviopku/article/details/81629492 

2. GIOU

IOU虽然简单,但有一些明显的缺点:1,当两个框没有任何交集时,IOU为0,IOU loss会一直为1。无法反应出检测框与GT框之间的距离,从而导致:只要两个框没有交集,IOU loss就恒等于1,则无论朝哪个方向优化,IOU loss都不会下降,此时的IOU loss失去了指导性。2. 很多场景下,IOU并不能反应两个b-box之间的贴合度。GIOU就是在IOU的基础上做了一些改进.

链接:[1902.09630] Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression (arxiv.org)

发表于:CVPR2019

算法描述为:

看图更容易懂:

在IOU的基础上找到一个“全局框”C,这个全局框能够刚好把两个b-box装进去。这样对多一部分面积C_

根据上图表示:GIOU = IOU - C_/C

GIOU loss可以简单表示为:L_{GIOU} = 1 - GIOU

即:L_{GIOU} = 1 - IOU + \bar{C}/C

在两个b-box没有交集的情况下:

可以看到GIOU会随两个框之间的距离变化而变化,从而反应到loss上,从而指导预测框的移动方向

3. DIOU

链接:[1911.08287] Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression (arxiv.org)

发表于:AAAI2020

在GIOU的基础上进一步强调了距离的重要性。直接算出一个中心点的距离相对于框规模的一个比值。咱们先看公式:

跟GIOU loss相比只是替换了最后一项。这一项是怎么算的呢?看图:

跟GIOU一样,DIOU还是需要找到最小包围框C(注意大小写),然后c作为C的对角线长度。图中的d表示,两个b-box中间点连线的长度。

则,最后这一项可以解读为:中心连线的长度d与最小包围框C对角线长度c的比值的平方这里为啥加个平方呢?答:咱们算距离或长度的时候需要开根号,这里加平方其实是减少开根号的运算步骤。

4. CIOU

链接:[2005.03572] Enhancing Geometric Factors in Model Learning and Inference for Object Detection and Instance Segmentation (arxiv.org)

CIOU的全称是:Complete-IOU。CIOU就稍微有些复杂了。

看公式:

我们发现,这就是DIOU加了最后一项而已,即调整长宽比的loss项。咱们只需要了解\alpha V即可了解CIOU,先看V,即Consistency of Aspect Ratio:

假设预测框和GT框的宽长比不一致,则V会很大。再看一个trade-off参数\alpha:

\alpha可以看出,当IOU小于0.5的时候,CIOU就变成DIOU。IOU越大,\alpha就越接近1。

那么,在IOU很大的情况下,变为0(中心点重合),这个时候需要调节长宽比了。DIOU在这个时候,loss的梯度也变小了(只靠IOU loss的部分在传递梯度),而CIOU可以依靠最后一项继续保持loss的梯度,使得检测器能够迅速调整好自己与GT框拥有一样的宽长比。

辅以一张对比图来说明:

第一排是GIOU,第二排是CIOU,原点处的绿色框是GT框,黑色框是anchor框,红色框是预测框。可以看到,在预测框和GT框没有交集(即IOU=0)的情况下,GIOU和CIOU都有指导检测框移动的能力。此时,GIOU从位置、宽长比、size等角度调整预测框,而CIOU是迅速拉回位置(不怎么动预测框的形状),因此CIOU可以比GIOU更快拉回预测框使其IOU>0。等IOU>0以后,CIOU迅速调整size规模。等IOU>0.5以后,CIOU的宽长比(也叫纵横比)部分开始作为梯度传播的主要部分,使得预测框和GT框有用一样的宽长比。

文章本人原创,有问题欢迎留言交流~

### 实现YOLOv8中的Soft-NMS及其与不同类型IOU结合 在目标检测领域,尤其是面对密集遮挡场景时,改进后的NMS算法能够显著提升模型的表现。对于YOLOv8而言,在原有基础上引入Soft-NMS并结合多种类型的交并比(IOU),可以有效改善此类复杂环境下的检测效果。 #### Soft-NMS简介 传统NMS通过设定阈值来过滤重叠框,而Soft-NMS则采用更灵活的方式调整候选框得分,从而保留更多潜在的有效预测[^2]。具体来说,当两个边界框存在较大程度上的重合时,不是简单地丢弃其中一个,而是降低其置信度分数,使得最终输出更加合理。 #### 结合不同类型的IOU 为了进一步增强YOLOv8应对密集物体的能力,可以在Soft-NMS过程中融入GIOUDIOUCIOU、EIOU和SIOU等改进型IOU计算方法: - **Generalized IOU (GIoU)**:不仅考虑了两矩形之间的相交区域,还加入了包围这两个矩形最小外接矩形的影响因子。 - **Distance IOU (DIoU)**:除了上述因素之外,额外考量中心点距离对相似性的贡献。 - **Complete IOU (CIoU)**:综合了尺度差异、形状匹配等多个方面的影响。 - **Enhanced IOU (EIou)**:在此基础上增加了角度偏差惩罚项。 - **Symmetric IOU (SIoU)**:强调两侧边界的相对位置关系。 这些变体形式能够在不同程度上弥补标准IOU存在的局限性,特别是在处理高度拥挤或部分被遮挡的对象时表现出色[^1]。 #### Python代码示例 以下是基于PyTorch框架下实现带有各种IOU版本的Soft-NMS函数的一个简化版例子: ```python import torch def soft_nms_with_iou_types(boxes, scores, iou_type='giou', sigma=0.5, thresh=0.4): """ :param boxes: Tensor of shape [num_boxes, 4], each row is [x_min, y_min, x_max, y_max]. :param scores: Tensor of shape [num_boxes]. Confidence score for each box. :param iou_type: Type of IoU to use ('giou', 'diou', 'ciou', 'eiou', or 'siou'). :return: Indices of the selected boxes after applying Soft-NMS. """ indices = [] while scores.numel() > 0: max_idx = torch.argmax(scores) indices.append(max_idx.item()) keep_mask = compute_iou_matrix(boxes[max_idx:max_idx+1], boxes)[0] <= thresh weights = torch.exp(-(compute_iou_matrix( boxes[max_idx:max_idx+1], boxes, type=iou_type) ** 2)/sigma) scores *= weights * keep_mask.float() mask = scores >= thresh boxes = boxes[mask] scores = scores[mask] return torch.tensor(indices).long() def compute_iou_matrix(box_a, box_b, type="iou"): """Compute pairwise IoUs between two sets of bounding boxes.""" area_a = (box_a[:, 2]-box_a[:, 0])*(box_a[:, 3]-box_a[:, 1]) area_b = (box_b[:, 2]-box_b[:, 0])*(box_b[:, 3]-box_b[:, 1]) inter_xmin = torch.max(box_a[:, None, 0], box_b[:, 0]) inter_ymin = torch.max(box_a[:, None, 1], box_b[:, 1]) inter_xmax = torch.min(box_a[:, None, 2], box_b[:, 2]) inter_ymax = torch.min(box_a[:, None, 3], box_b[:, 3]) w_inter = torch.clamp(inter_xmax-inter_xmin, min=0.) h_inter = torch.clamp(inter_ymax-inter_ymin, min=0.) intersection = w_inter*h_inter union = area_a[:,None]+area_b-intersection if type=="iou": ious = intersection / union elif type=="giou": # Generalized Intersection over Union enclosing_box = ( torch.min(box_a[:, None, :2], box_b[:,:2]), torch.max(box_a[:, None, 2:], box_b[:,2:]) ) c_area = ((enclosing_box[1][:,:,0]-enclosing_box[0][:, :, 0])* (enclosing_box[1][:,:,1]-enclosing_box[0][:, :, 1])) giou_term = (c_area - union)/(union+c_area) ious = ious-giou_term elif type=="diou": # Distance-IoU Loss center_dist_sqrd = ((box_a[:, None, 0]+box_a[:, None, 2])/2-(box_b[:, 0]+box_b[:, 2])/2)**2 \ +((box_a[:, None, 1]+box_a[:, None, 3])/2-(box_b[:, 1]+box_b[:, 3])/2)**2 diag_enclose_sqrd = ((enclosing_box[1][:,:,0]-enclosing_box[0][:, :, 0])**2+ (enclosing_box[1][:,:,1]-enclosing_box[0][:, :, 1])**2) diou_term=center_dist_sqrd/(diag_enclose_sqrd+1e-7) ious = ious-diou_term elif type=="ciou": # Complete IoU loss v=(torch.atan(((box_b[:, 2]-box_b[:, 0])/(box_b[:, 3]-box_b[:, 1])+1e-7))- torch.atan(((box_a[:, None, 2]-box_a[:, None, 0])/ (box_a[:, None, 3]-box_a[:, None, 1])))).pow_(2)*(4/math.pi**2) alpha=v/(ious+(1-ious)*v) ciou_term=alpha*v ious = ious-ciou_term-diou_term elif type=="eiou": # Enhanced IoU e_w=torch.abs((box_a[:, None, 2]-box_a[:, None, 0])-\ (box_b[:, 2]-box_b[:, 0])) e_h=torch.abs((box_a[:, None, 3]-box_a[:, None, 1])-\ (box_b[:, 3]-box_b[:, 1])) eiou_term=e_w/e_h ious = ious-eiou_term elif type=="siou": # Symmetric IoU s_w=torch.abs((box_a[:, None, 2]+box_a[:, None, 0])-(box_b[:, 2]+box_b[:, 0]))/2 s_h=torch.abs((box_a[:, None, 3]+box_a[:, None, 1])-(box_b[:, 3]+box_b[:, 1]))/2 siou_term=s_w+s_h ious = ious-siou_term else: raise ValueError(f'Unknown IoU type {type}') return ious.squeeze_() ``` 此段代码展示了如何定义一个支持多类IOU计算方式的`soft_nms_with_iou_types()` 函数,并提供了相应的辅助函数 `compute_iou_matrix()` 来完成具体的IOU运算逻辑。用户可以根据实际需求选择合适的参数组合来进行实验测试。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

木盏

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值