mmdetection学习之anchor_generator

最新推荐文章于 2023-12-26 14:04:40 发布

qq_29212757

最新推荐文章于 2023-12-26 14:04:40 发布

阅读量2.9k

点赞数 2

分类专栏： mmdetection 文章标签： mmdetection AnchorGenerator

本文链接：https://blog.csdn.net/qq_29212757/article/details/97524524

版权

mmdetection 专栏收录该内容

1 篇文章

订阅专栏

什么是mmdetection就不介绍了，自己可取baidu或者google

文件：mmdet/core/anchor/anchor_generator.py

在文件中定义了一个detector产生预选框的类。

程序具体如下。

import torch

class AnchorGenerator(object):

    def __init__(self, base_size, scales, ratios, scale_major=True, ctr=None):
        self.base_size = base_size
        self.scales = torch.Tensor(scales)
        self.ratios = torch.Tensor(ratios)
        self.scale_major = scale_major
        self.ctr = ctr
        self.base_anchors = self.gen_base_anchors()

    @property
    def num_base_anchors(self):
        return self.base_anchors.size(0)

    def gen_base_anchors(self):
        w = self.base_size
        h = self.base_size
        if self.ctr is None:
            x_ctr = 0.5 * (w - 1)
            y_ctr = 0.5 * (h - 1)
        else:
            x_ctr, y_ctr = self.ctr

        h_ratios = torch.sqrt(self.ratios)
        w_ratios = 1 / h_ratios
        if self.scale_major:
            ws = (w * w_ratios[:, None] * self.scales[None, :]).view(-1)
            hs = (h *  h_ratios[:, None] * self.scales[None, :]).view(-1)
        else:
            ws = (w * self.scales[:, None] * w_ratios[None, :]).view(-1)
            hs = (h * self.scales[:, None] * h_ratios[None, :]).view(-1)

        base_anchors = torch.stack(
            [
                x_ctr - 0.5 * (ws - 1), y_ctr - 0.5 * (hs - 1),
                x_ctr + 0.5 * (ws - 1), y_ctr + 0.5 * (hs - 1)
            ],
            dim=-1).round()

        return base_anchors

    def _meshgrid(self, x, y, row_major=True):
        xx = x.repeat(len(y))
        yy = y.view(-1, 1).repeat(1, len(x)).view(-1)
        if row_major:
            return xx, yy
        else:
            return yy, xx

    def grid_anchors(self, featmap_size, stride=16, device='cuda'):
        base_anchors = self.base_anchors.to(device)

        feat_h, feat_w = featmap_size
        shift_x = torch.arange(0, feat_w, device=device) * stride
        shift_y = torch.arange(0, feat_h, device=device) * stride
        shift_xx, shift_yy = self._meshgrid(shift_x, shift_y)
        shifts = torch.stack([shift_xx, shift_yy, shift_xx, shift_yy], dim=-1)
        shifts = shifts.type_as(base_anchors)
        # first feat_w elements correspond to the first row of shifts
        # add A anchors (1, A, 4) to K shifts (K, 1, 4) to get
        # shifted anchors (K, A, 4), reshape to (K*A, 4)

        all_anchors = base_anchors[None, :, :] + shifts[:, None, :]
        all_anchors = all_anchors.view(-1, 4)
        # first A rows correspond to A anchors of (0, 0) in feature map,
        # then (0, 1), (0, 2), ...
        return all_anchors

    def valid_flags(self, featmap_size, valid_size, device='cuda'):
        feat_h, feat_w = featmap_size
        valid_h, valid_w = valid_size
        assert valid_h <= feat_h and valid_w <= feat_w
        valid_x = torch.zeros(feat_w, dtype=torch.uint8, device=device)
        valid_y = torch.zeros(feat_h, dtype=torch.uint8, device=device)
        valid_x[:valid_w] = 1
        valid_y[:valid_h] = 1
        valid_xx, valid_yy = self._meshgrid(valid_x, valid_y)
        valid = valid_xx & valid_yy
        valid = valid[:, None].expand(
            valid.size(0), self.num_base_anchors).contiguous().view(-1)
        return valid

num_base_anchors：产生的是以特征图上一个点为中心产生的预框的数量，数量由scales, ratios这两个tensor的size决定。例如：这两个tensor的size都为3，则预选框的数量为3X3=9

gen_base_anchors:产生的上述预选框的具体操作

_meshgrid：在给定两个tensor情况下，产生这两个tensor的形状的网格

grid_anchors：在给定一个特征图具体尺寸，如特征图大小为[10,10]，scales, ratios这两个tensor的size均为3的情况下，会以特征图的每一个点为中心，在这个点上产生不同的9个预选框，共产生10X10X9=900个预选框。

valid_flags：给定两个尺寸，如第一个尺寸为特征图尺寸，第二个为标签在特征图同一尺寸下的标签，则该函数会产生产生一个区域，该区域大小和特征图尺寸一样，标签在该特征图下的区域中的值全为1，其他区域值全为0。函数最后还将该区域使用expand操作将该区域扩张了多次，次数为特征图一个点下预选框的数目。