语义图像分割的目标在于标记图片中每一个像素,并将每一个像素与其表示的类别对应起来。
任务表征
我们的目标是要用RGB图(height X weight X 3)或灰度图(height X weight X 1)为输入,并输出一个分割图,在分割图中每个像素都包括一个用整数表示的类别标签(height X weight X 1)。
分割成
1: Person
2: Purse
3: Plants/Grass
4: Sidewalk
5: Buildings/Structures
通过onehot编码类别标签的方法创建目标——本质上讲是要为每一个可能的类创建一个输出通道。所以我们输出有那么多通道
然后我们可以利用每一个像素位深向量的 argmax 函数将预测值分解为分割映射(上图所示)
建立网络架构
针对这项任务简单地构建神经网络架构的方法是简单地堆叠大量卷积层(用 same 填充保留维度)后输出最终的分割映射。通过特征图的接连转换,直接从输入图像学到了相对应的分割映射&