YOLACT 将实例分割任务转化为“基向量组合”问题的核心思想,是通过生成一组基础分割模板(原型掩模),再为每个实例预测一组组合系数,动态地将这些基础模板线性组合成最终的实例掩码。这种设计将复杂的像素级预测简化为系数驱动的模板合成,极大提升了效率。以下是详细解释:
一、核心思想分解
1. 基向量(原型掩模)的生成
- 基向量定义:
基向量是一组全局的、类别无关的基础分割模板(如边缘、圆形、纹理等),每个模板对应一个原型掩模 Pi∈RH×W(H,W 为特征图尺寸)。 - 生成方式:
通过 Protonet(轻量级全卷积网络)从主干网络特征中提取。例如,输入特征图尺寸为 81 原图(如 100×100),生成 32 个原型掩模。 - 物理意义:
每个原型捕捉一种通用分割模式(如“物体边缘”、“密集纹理”、“规则几何形状”),覆盖图像中可能存在的各种局部特征。
2. 实例系数的预测