YOLOV3中k-means聚类获得anchor boxes过程详解

YOLOV3中k-means聚类获得anchor boxes过程详解

  我们都知道yolov3对训练数据使用了k-means聚类的算法来获得anchor boxes大小,但是具体其计算过程是怎样的呢?下面我们来详细的分析其具体计算过程:

第一步:首先我们要知道我们需要聚类的是bounding box,所以我们无需考虑其所属类别,第一步我们需要将所有的bounding box坐标提取出来,也许一张图有一个矩形框,也许有多个,但是我们需要无区别的将所有图片的所有矩形框提取出来,放在一起。

第二步:数据处理获得所有训练数据bounding boxes的宽高数据。给的训练数据往往是其bounding box的4个坐标,但是我们后续需要聚类分析的是bounding box的宽高大小,所以我们需要将坐标数据转换为框的宽高大小,计算方法很简单:长=右下角横坐标-左上角横坐标、宽=右下角纵坐标-左上角纵坐标。

第三步:初始化k个anchor box,通过在所有的bounding boxes中随机选取k个值作为k个anchor boxes的初始值。

第四步:计算每个bounding box与每个anchor box的iou值。传统的聚类方法是使用欧氏距离来衡量差异,也就是说如果我们运用传统的k-means聚类算法,可以直接聚类bounding box的宽和高,产生k个宽、高组合的anchor boxes,但是作者发现此方法在box尺寸比较大的时候,其误差也更大,所以作者引入了iou值,可以避免这个问题。iou值计算方法:这里参考下图和计算代码:
在这里插入图片描述

min_w_matrix = np.minimum(cluster_w_matrix, box_w_matrix)      #cluster_w_matrix, box_w_matrix分别代表anchor box和bounding box宽大小
min_h_matrix = np.minimum(cluster_h_matrix, box_h_matrix)      #cluster_h_matrix, box_h_matrix分别代表anchor box和bounding box高大小
inter_area = np.multiply(min_w_matrix, min_h_matrix)               #inter_area表示重叠面积
IOU = inter_area / (box_area + cluster_area - inter_area)#box_area表示bounding box面积 ;cluster_area表示anchor box面积

由于iou值往往越大越好,所以作者定义了一个距离d参数,用来表示其误差:

d=1-IOU

第五步:分类操作。经过前一步的计算可以的到每一个bounding box对于每个anchor box的误差d(n,k),我们通过比较每个bounding box其对于每个anchor box的误差大小{d(i,1),d(i,2),…,d(i,k)},选取最小误差的那个anchor box,将这个bounding box分类给它,对于每个bounding box都做这个操作,最后记录下来每个anchor box有哪些bounding box属于它。

第六步:anchor box更新。经过上一步,我们就知道每一个anchor box都有哪些bounding box属于它,然后对于每个anchor box中的那些bounding box,我们再求这些bounding box的宽高中值大小(这里参照github上作者qqwweee那个yolov3项目,也许也有使用平均值进行更新),将其作为该anchor box新的尺寸。

第七步:重复操作第四步到第六步,直到在第五步中发现对于全部bounding box其所属的anchor box类与之前所属的anchor box类完全一样。(这里表示所有bounding box的分类已经不再更新)

第八步:计算anchor boxes精确度。至第七步,其实已经通过k-means算法计算出anchor box。但是细心的同学可能已经发现,k-means.py还给出其精确度大小,其计算方法如下:使用最后得到的anchor boxes与每个bounding box计算其IOU值,对于每个bounding box选取其最高的那个IOU值(代表其属于某一个anchor box类),然后求所有bounding box该IOU值的平均值也即最后的精确度值。

应网友要求附上代码代码来源):

import numpy as np
import xml.etree.ElementTree as ET
import glob
import random

def cas_iou(box,cluster):
    x = np.minimum(cluster[:,0],box[0])
    y = np.minimum(cluster[:,1],box[1])

    intersection = x * y
    area1 = box[0] * box[1]

    area2 = cluster[:,0] * cluster[:,1]
    iou = intersection / (area1 + area2 -intersection)

    return iou

def avg_iou(box,cluster):
    return np.mean([np.max(cas_iou(box[i],cluster)) for i in range(box.shape[0])])


def kmeans(box,k):
    # 取出一共有多少框
    row = box.shape[0]
    
    # 每个框各个点的位置
    distance = np.empty((row,k))
    
    # 最后的聚类位置
    last_clu = np.zeros((row,))

    np.random.seed()

    # 随机选5个当聚类中心
    cluster = box[np.random.choice(row,k,replace = False)]
    # cluster = random.sample(row, k)
    while True:
        # 计算每一行距离五个点的iou情况。
        for i in range(row):
            distance[i] = 1 - cas_iou(box[i],cluster)
        
        # 取出最小点
        near = np.argmin(distance,axis=1)

        if (last_clu == near).all():
            break
        
        # 求每一个类的中位点
        for j in range(k):
            cluster[j] = np.median(
                box[near == j],axis=0)

        last_clu = near

    return cluster

def load_data(path):
    data = []
    # 对于每一个xml都寻找box
    for xml_file in glob.glob('{}/*xml'.format(path)):
        tree = ET.parse(xml_file)
        height = int(tree.findtext('./size/height'))
        width = int(tree.findtext('./size/width'))
        # 对于每一个目标都获得它的宽高
        for obj in tree.iter('object'):
            xmin = int(float(obj.findtext('bndbox/xmin'))) / width
            ymin = int(float(obj.findtext('bndbox/ymin'))) / height
            xmax = int(float(obj.findtext('bndbox/xmax'))) / width
            ymax = int(float(obj.findtext('bndbox/ymax'))) / height

            xmin = np.float64(xmin)
            ymin = np.float64(ymin)
            xmax = np.float64(xmax)
            ymax = np.float64(ymax)
            # 得到宽高
            data.append([xmax-xmin,ymax-ymin])
    return np.array(data)


if __name__ == '__main__':
    # 运行该程序会计算'./VOCdevkit/VOC2007/Annotations'的xml
    # 会生成yolo_anchors.txt
    SIZE = 416
    anchors_num = 6
    # 载入数据集,可以使用VOC的xml
    path = r'./VOCdevkit/VOC2007/Annotations'
    
    # 载入所有的xml
    # 存储格式为转化为比例后的width,height
    data = load_data(path)
    
    # 使用k聚类算法
    out = kmeans(data,anchors_num)
    out = out[np.argsort(out[:,0])]
    print('acc:{:.2f}%'.format(avg_iou(data,out) * 100))
    print(out*SIZE)
    data = out*SIZE
    f = open("yolo_anchors.txt", 'w')
    row = np.shape(data)[0]
    for i in range(row):
        if i == 0:
            x_y = "%d,%d" % (data[i][0], data[i][1])
        else:
            x_y = ", %d,%d" % (data[i][0], data[i][1])
        f.write(x_y)
    f.close()

相关博客(yolo v3)使用自己数据集k-means聚类产生的anchor效果反而变差解决方法

参考:https://github.com/bubbliiiing/yolov4-tiny-keras/blob/master/kmeans_for_anchors.py

  • 58
    点赞
  • 277
    收藏
    觉得还不错? 一键收藏
  • 45
    评论
### 回答1: b'yolov3k-means聚类算法'是YOLOv3目标检测算法用于确定先验框(anchor boxes)尺寸和位置的聚类算法。它基于k-means聚类算法,通过对训练集的目标框进行聚类计算,确定出适合目标尺寸和形状的先验框。这些先验框用于检测算法的坐标回归和分类,提高检测精度。 ### 回答2: YOLOv3是一种常用的目标检测算法,其目标检测过程需要借助k-means聚类算法进行锚框的选取。锚框是用来检测目标的一种框,能够将图片划分成多个小块,在每个小块上识别目标。在YOLOv2,提出了使用k-means聚类算法来确定锚框,而在YOLOv3,继续沿用了这一方法。 K-means是一种聚类算法,根据数据点之间的距离将它们划分为不同的聚类YOLOv3k-means聚类算法主要用于确定锚框的大小和比例。具体而言,将所有的标注框(即真实的目标框)的宽高比和面积进行归一化处理后,随机选择若干框作为初始的聚类心。然后,将所有标注框分别与这些心计算距离,每个标注框都将被分配到距离最近的聚类心所在的簇。接着,计算每个簇的均值,将均值作为新的聚类心,重复以上步骤,直至聚类心不再发生变化或者达到一定的迭代次数。 最终得到的聚类心就是我们需要的锚框大小和比例。这些锚框可以根据输入图片的大小进行缩放,以适应不同尺寸的目标。在检测过程,首先将图片划分成多个小块,然后在每个小块上使用多个不同尺寸和比例的锚框进行目标检测。通过与标注框的比对,最终确定每个锚框是否存在目标,并将目标类别和位置信息输出。 总之,YOLOv3k-means聚类算法是目标检测非常重要的一步,能够帮助我们选取最优的锚框,提高模型的检测性能和精度。 ### 回答3: yolov3是一种流行的目标检测算法,其k-means聚类算法用于确定用于训练神经网络的锚框的尺寸。这是因为yolov3算法使用了锚框来预测图像的目标位置和大小。 聚类是一种常见的机器学习技术,用于将数据分为不同的组或簇,以便进行进一步分析。在yolov3k-means聚类算法用于在训练数据集找到最适合的锚框大小。 这个过程包括以下步骤: 1. 收集目标检测训练集,并确定在图像查找目标的步长,即“步幅”。 2. 对于每个训练集图片,提取其的目标边界框,并记录下它们的宽度和高度。 3. 根据给定的k值(通常为5到10),使用k-means聚类算法对边界框宽度和高度进行聚类,以找到最佳的k个锚框尺寸。 4. 将这些锚框尺寸保存为yolo模型的一部分,这样在训练模型时就可以使用它们来预测目标边界框。 通过使用k-means聚类算法yolov3算法可以确定最适合目标检测任务的锚框大小,并提高模型的性能和准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 45
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值