李沐深度学习11-9语义分割小节中voc_colormap2label()和voc_label_indices()函数的理解

最新推荐文章于 2024-06-10 20:28:46 发布

菜鸡君君

最新推荐文章于 2024-06-10 20:28:46 发布

阅读量743

点赞数 1

分类专栏：深度学习文章标签：深度学习 python 人工智能

本文链接：https://blog.csdn.net/aflyinglbird/article/details/125882744

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

def voc_colormap2label():
    """构建从RGB到VOC类别索引的映射"""
    colormap2label = torch.zeros(256 ** 3, dtype=torch.long)
    for i, colormap in enumerate(VOC_COLORMAP):
        colormap2label[
            (colormap[0] * 256 + colormap[1]) * 256 + colormap[2]] = i
    return colormap2label


def voc_label_indices(colormap, colormap2label):
    """将VOC标签中的RGB值映射到它们的类别索引"""
    # 将[C, H, W]变为[H, W, C]
    colormap = colormap.permute(1, 2, 0).numpy().astype('int32')
    # 计算每个像素对应的整数值，idx形状为[H, W]
    idx = ((colormap[:, :, 0] * 256 + colormap[:, :, 1]) * 256
           + colormap[:, :, 2])

    return colormap2label[idx]

1 voc_colormap2label()函数

返回一个一维tensor，构建从RGB到具体分类的映射。该tensor包含256^3个元素，其中只有20个元素分别为1-20，其余均为0。这是由于每个像素的值为（R, G, B）元组，无法与类别直接对应，所以先把一个像素值（R, G, B）映射到一个整数，然后再用这个整数去对应像素类别，为了避免不同（R, G, B）映射到同一个整数，使用f:（R * 256 + G）*256 + B 来映射，像素颜色只有256*256*256种，所以定义了256^3大小的一维tensor容纳类别索引。

变量构成：colormap是包含三个元素的列表，为一个像素的RGB值