segNet学习记录
一.论文部分
1.数据细节
数据集细节我们从m2cai -工具训练集的视频1和2下采样307张图像,并在像素级别将它们注释为各种不同的类别和子类别,如下所示:
- 器官:肝脏,胆囊,上壁,肠
- 器械:抓手,双极,钩,剪刀,剪子,冲洗器,标本袋,套管(提供一个插入手术器械的开口),夹子(由剪子应用于密封血管的夹子)
- 液体:胆汁,血液
- 杂项:未知(用作标注者无法识别的像素的标签),黑色(用作图像中周围区域的标签,由于套管针限制了相机的视野,所以不可见)
- 动脉
2.网络构建
由于注释数据的数量相对较少,我们将精力集中在数据效率高的方法上,或者能够很好地处理像我们这样较小的数据集的方法上。我们提出了一个极简的编码器-解码器卷积神经网络,如图2所示。我们将其称为分割网络。
输入图像在训练时被调整为256 x 256。由于我们的数据集很小,我们在训练时进行了10种作物的在线数据增强,我们从所有4个角落和中心取出所有224 x 224作物,以及它们的水平翻转(镜像)。我们通过每通道的RGB均值[0.295,0.204,0.197]和标准偏差[0.221,0.188,0.182]对每个图像进行归一化。这些值是在M2CAI-tool训练集的所有581923帧上计算的。在测试时,输入图像使用相同的均值和标准差进行归一化,但我们没有使用10作物数据增强。在本例中,输入图像的大小被调整为256x256,但是由于我们不使用任何农作物,分辨率保持在256x256,而不是224 x224。对于Encoder部分,我们分别使用64、128、256、512和1024滤波器的卷积层来获得潜在表示。对于网络中的所有卷积层,我们使用的内核大小为4 x 4,步幅为2,填充为1,除了最后一个编码器层,我们使用相同的内核大小,但步幅为1,没有填充。卷积层之后是批处理归一化[16]和ReLU非线性。需要注意的是,我们在网络的第一编码器层中不使用批处理规范化。
一旦我们获得了输入图像经过Encoder后的潜在表示,然后通过Decoder网络,在那里使用基于分数阶卷积的卷积转置层对其进行连续上采样。我们对Latent表示的网络进行镜像ÿ