目标检测从入门到精通——常见iou及变体算法介绍

小陈phd

已于 2024-09-09 17:50:36 修改

阅读量1k

点赞数 26

分类专栏： # 目标检测计算机视觉文章标签：目标检测算法人工智能计算机视觉

于 2024-09-09 17:47:13 首次发布

本文链接：https://blog.csdn.net/weixin_42917352/article/details/142065003

版权

计算机视觉同时被 2 个专栏收录

48 篇文章 11 订阅

订阅专栏

目标检测

2 篇文章 0 订阅

订阅专栏

目标检测中的 IoU 算法及其变体

绪论

在计算机视觉领域，目标检测是一个重要的研究方向，广泛应用于自动驾驶、安防监控、图像搜索等多个场景。为了评估目标检测模型的性能，Intersection over Union（IoU）作为一种常用的评估指标，扮演着至关重要的角色。IoU 衡量的是预测边界框与真实边界框之间的重叠程度，能够有效地反映模型的检测精度。

随着研究的深入，许多 IoU 的变体被提出，以解决传统 IoU 在某些情况下的不足。本文将详细介绍几种常见的 IoU 算法及其变体，包括它们的数学原理、特点以及适用场景，以期为目标检测领域的研究者和工程师提供参考。

IoU 算法及其变体

1. 基本 IoU（Intersection over Union）

在这里插入图片描述

原理：
基本的 IoU 计算公式如下：
$\text{IoU} = \frac{\text{Area of Overlap}}{\text{Area of Union}} = \frac{A \cap B}{A \cup B}$
其中， $A$ 是预测框， $B$ 是真实框。

交集（Area of Overlap）：预测框与真实框重叠的区域面积。
并集（Area of Union）：预测框和真实框的总面积，计算方式为：
$\cup B = A + B - A \cap B$

import numpy as np

def iou(boxA, boxesB):
    # 计算交集的坐标
    xA = np.maximum(boxA[0], boxesB[:, 0])
    yA = np.maximum(boxA[1], boxesB[:, 1])
    xB = np.minimum(boxA[2], boxesB[:, 2])
    yB = np.minimum(boxA[3], boxesB[:, 3])

    # 计算交集面积
    interArea = np.maximum(0, xB - xA) * np.maximum(0, yB - yA)

    # 计算各自的面积
    boxAArea = (boxA[2] - boxA[0]) * (boxA[3] - boxA[1])
    boxBArea = (boxesB[:, 2] - boxesB[:, 0]) * (boxesB[:, 3] - boxesB[:, 1])

    # 计算并集面积
    unionArea = boxAArea + boxBArea - interArea

    # 计算IoU
    return interArea / unionArea if unionArea > 0 else 0

特点：

IoU 的值范围在 $[0, 1]$ 之间，值越大表示重叠程度越高。
通常设定一个阈值（如 0.5），当 IoU 大于该阈值时，认为检测是成功的。

2. GIoU（Generalized Intersection over Union）

在这里插入图片描述

原理：
GIoU 是对基本 IoU 的扩展，旨在解决 IoU 在某些情况下的不足，特别是当预测框与真实框没有重叠时。GIoU 的计算公式如下：
$\text{GIoU} = \text{IoU} - \frac{\text{Area of the smallest enclosing box} - \text{Area of Union}}{\text{Area of the smallest enclosing box}}$

def giou(boxA, boxesB):
    iou_values = iou(boxA, boxesB)

    # 计算最小外接框的坐标
    x_min = np.minimum(boxA[0], boxesB[:, 0])
    y_min = np.minimum(boxA[1], boxesB[:, 1])
    x_max = np.maximum(boxA[2], boxesB[:, 2])
    y_max = np.maximum(boxA[3], boxesB[:, 3])

    # 计算最小外接框的面积
    enclosing_area = (x_max - x_min) * (y_max - y_min)

    # 计算GIoU
    return iou_values - (enclosing_area - (boxA[2] - boxA[0]) * (boxA[3] - boxA[1]) - (boxesB[:, 2] - boxesB[:, 0]) * (boxesB[:, 3] - boxesB[:, 1])) / enclosing_area

特点：

GIoU 在 IoU 为 0 时仍然可以提供有意义的反馈，避免了 IoU 在无重叠情况下的无效评估。
GIoU 通过考虑最小外接框的面积来惩罚预测框与真实框之间的距离。

3. DIoU（Distance Intersection over Union）

原理：
DIoU 进一步扩展了 GIoU，考虑了预测框与真实框中心点之间的距离。DIoU 的计算公式如下：
$\text{DIoU} = \text{IoU} - \frac{\rho^2}{c^2}$
其中：

$\rho$ 是预测框中心与真实框中心之间的欧几里得距离。
$c$ 是最小外接框的对角线长度。

def diou(boxA, boxesB):
    iou_values = iou(boxA, boxesB)

    # 计算中心点
    centerA = np.array([(boxA[0] + boxA[2]) / 2, (boxA[1] + boxA[3]) / 2])
    centerB = np.array([(boxesB[:, 0] + boxesB[:, 2]) / 2, (boxesB[:, 1] + boxesB[:, 3]) / 2]).T

    # 计算中心距离
    rho2 = np.sum((centerA - centerB) ** 2, axis=1)

    # 计算最小外接框的对角线长度
    x_min = np.minimum(boxA[0], boxesB[:, 0])
    y_min = np.minimum(boxA[1], boxesB[:, 1])
    x_max = np.maximum(boxA[2], boxesB[:, 2])
    y_max = np.maximum(boxA[3], boxesB[:, 3])
    c2 = (x_max - x_min) ** 2 + (y_max - y_min) ** 2

    # 计算DIoU
    return iou_values - (rho2 / c2)

特点：

DIoU 不仅考虑了重叠区域，还考虑了框中心之间的距离，鼓励模型更好地定位目标。

4. CIoU（Complete Intersection over Union）

原理：
CIoU 是 DIoU 的进一步扩展，综合考虑了 IoU、中心距离和长宽比。CIoU 的计算公式如下：
$\text{CIoU} = \text{IoU} - \frac{\rho^2}{c^2} - \alpha v$
其中：

$v$ 是长宽比的惩罚项，计算方式为：
$\frac{4}{\pi^2} \left( \arctan\left(\frac{w_{pred}}{h_{pred}}\right) - \arctan\left(\frac{w_{gt}}{h_{gt}}\right) \right)^2$
$\alpha$ 是一个平衡因子，用于调节长宽比的影响。

def ciou(boxA, boxesB):
    iou_values = iou(boxA, boxesB)

    # 计算中心点
    centerA = np.array([(boxA[0] + boxA[2]) / 2, (boxA[1] + boxA[3]) / 2])
    centerB = np.array([(boxesB[:, 0] + boxesB[:, 2]) / 2, (boxesB[:, 1] + boxesB[:, 3]) / 2]).T

    # 计算中心距离
    rho2 = np.sum((centerA - centerB) ** 2, axis=1)

    # 计算最小外接框的对角线长度
    x_min = np.minimum(boxA[0], boxesB[:, 0])
    y_min = np.minimum(boxA[1], boxesB[:, 1])
    x_max = np.maximum(boxA[2], boxesB[:, 2])
    y_max = np.maximum(boxA[3], boxesB[:, 3])
    c2 = (x_max - x_min) ** 2 + (y_max - y_min) ** 2

    # 计算长宽比的惩罚项
    wA, hA = boxA[2] - boxA[0], boxA[3] - boxA[1]
    wB, hB = boxesB[:, 2] - boxesB[:, 0], boxesB[:, 3] - boxesB[:, 1]
    v = (4 / (np.pi ** 2)) * (np.arctan(wA / hA) - np.arctan(wB / hB)) ** 2

    # 计算CIoU
    return iou_values - (rho2 / c2) - v

特点：

CIoU 综合考虑了重叠区域、中心距离和长宽比，使得目标检测更加精确。

5. Alpha-IoU

原理：
Alpha-IoU 是一种改进的 IoU 计算方法，通过引入一个可调节的参数 $\alpha$ 来平衡不同的 IoU 计算方式。Alpha-IoU 的计算公式通常表示为：
$\text{Alpha-IoU} = \text{IoU} - \frac{\rho^2}{c^2} - \alpha v$

def alpha_iou(boxA, boxesB, alpha=0.5):
    iou_values = iou(boxA, boxesB)

    # 计算中心点
    centerA = np.array([(boxA[0] + boxA[2]) / 2, (boxA[1] + boxA[3]) / 2])
    centerB = np.array([(boxesB[:, 0] + boxesB[:, 2]) / 2, (boxesB[:, 1] + boxesB[:, 3]) / 2]).T

    # 计算中心距离
    rho2 = np.sum((centerA - centerB) ** 2, axis=1)

    # 计算最小外接框的对角线长度
    x_min = np.minimum(boxA[0], boxesB[:, 0])
    y_min = np.minimum(boxA[1], boxesB[:, 1])
    x_max = np.maximum(boxA[2], boxesB[:, 2])
    y_max = np.maximum(boxA[3], boxesB[:, 3])
    c2 = (x_max - x_min) ** 2 + (y_max - y_min) ** 2

    # 计算长宽比的惩罚项
    wA, hA = boxA[2] - boxA[0], boxA[3] - boxA[1]
    wB, hB = boxesB[:, 2] - boxesB[:, 0], boxesB[:, 3] - boxesB[:, 1]
    v = (4 / (np.pi ** 2)) * (np.arctan(wA / hA) - np.arctan(wB / hB)) ** 2

    # 计算Alpha-IoU
    return iou_values - (rho2 / c2) - alpha * v

特点：

Alpha-IoU 通过调整参数 $\alpha$ ，可以控制长宽比和中心距离对最终 IoU 评分的影响，提供更灵活的评估。

6. SIoU（Scaled Intersection over Union）

原理：
SIoU 是对 CIoU 的进一步扩展，考虑了目标框的缩放因素。SIoU 的计算公式如下：
$\text{SIoU} = \text{IoU} - \frac{\rho^2}{c^2} - \alpha v - \beta s$
其中， $s$ 是缩放惩罚项， $\beta$ 是平衡因子。

def siou(boxA, boxesB, beta=0.5):
    iou_values = iou(boxA, boxesB)

    # 计算中心点
    centerA = np.array([(boxA[0] + boxA[2]) / 2, (boxA[1] + boxA[3]) / 2])
    centerB = np.array([(boxesB[:, 0] + boxesB[:, 2]) / 2, (boxesB[:, 1] + boxesB[:, 3]) / 2]).T

    # 计算中心距离
    rho2 = np.sum((centerA - centerB) ** 2, axis=1)

    # 计算最小外接框的对角线长度
    x_min = np.minimum(boxA[0], boxesB[:, 0])
    y_min = np.minimum(boxA[1], boxesB[:, 1])
    x_max = np.maximum(boxA[2], boxesB[:, 2])
    y_max = np.maximum(boxA[3], boxesB[:, 3])
    c2 = (x_max - x_min) ** 2 + (y_max - y_min) ** 2

    # 计算长宽比的惩罚项
    wA, hA = boxA[2] - boxA[0], boxA[3] - boxA[1]
    wB, hB = boxesB[:, 2] - boxesB[:, 0], boxesB[:, 3] - boxesB[:, 1]
    v = (4 / (np.pi ** 2)) * (np.arctan(wA / hA) - np.arctan(wB / hB)) ** 2

    # 计算缩放惩罚项
    s = (wA - wB) ** 2 + (hA - hB) ** 2

    # 计算SIoU
    return iou_values - (rho2 / c2) - beta * v - s

特点：

SIoU 通过考虑目标框的缩放因素，使得目标检测在不同尺度下的表现更加稳定。

7. RIoU（Relative Intersection over Union）

原理：
RIoU 是一种相对 IoU 计算方法，主要用于处理小目标检测问题。RIoU 的计算公式如下：
$\text{RIoU} = \frac{\text{Area of Overlap}}{\text{Area of Union} + \epsilon}$
其中， $\epsilon$ 是一个小常数，用于避免除零错误。

def riou(boxA, boxesB, epsilon=1e-6):
    interArea = iou(boxA, boxesB) * (boxA[2] - boxA[0]) * (boxA[3] - boxA[1])
    unionArea = (boxA[2] - boxA[0]) * (boxA[3] - boxA[1]) + (boxesB[:, 2] - boxesB[:, 0]) * (boxesB[:, 3] - boxesB[:, 1]) - interArea
    return interArea / (unionArea + epsilon)

特点：

RIoU 在处理小目标时表现更好，因为它通过引入小常数来稳定计算。

8. Focal IoU

原理：
Focal IoU 是一种结合了 Focal Loss 的 IoU 计算方法，旨在解决类别不平衡问题。Focal IoU 的计算公式如下：
$\text{Focal IoU} = -\alpha (1 - \text{IoU})^\gamma \log(\text{IoU})$
其中， $\alpha$ 和 $\gamma$ 是调节参数。

def focal_iou(boxA, boxesB, alpha=0.25, gamma=2.0):
    iou_values = iou(boxA, boxesB)
    return -alpha * (1 - iou_values) ** gamma * np.log(iou_values + 1e-6)

特点：

Focal IoU 通过加权 IoU 计算，增强了对难以检测目标的关注。

总结

在目标检测任务中，IoU 是评估模型性能的重要指标。随着研究的深入，许多 IoU 的变体被提出，以解决传统 IoU 在某些情况下的不足。每种 IoU 变体都有其独特的优点和适用场景，选择合适的 IoU 计算方法可以根据具体应用需求来决定。

指标	计算方式	特点
IoU	交集面积 / 并集面积	简单易懂，但在无重叠情况下无法提供有效反馈
GIoU	IoU - (最小外接框面积 - 并集面积) / 最小外接框面积	解决了 IoU 的不足，考虑了框之间的距离
DIoU	IoU - (中心距离的平方 / 最小外接框对角线的平方)	考虑了框中心之间的距离，鼓励更好的定位
CIoU	IoU - (中心距离的平方 / 最小外接框对角线的平方) - 长宽比惩罚	综合考虑了重叠、中心距离和长宽比，提供更全面的评估
Alpha-IoU	IoU - (中心距离的平方 / 最小外接框对角线的平方) - 长宽比惩罚	可调节的参数，灵活性高
SIoU	IoU - (中心距离的平方 / 最小外接框对角线的平方) - 长宽比惩罚 - 缩放惩罚	考虑目标框的缩放因素
RIoU	交集面积 / (并集面积 + 小常数)	处理小目标检测问题
Focal IoU	-α(1 - IoU)ᵞ log(IoU)	解决类别不平衡问题