segNet学习记录

本文详细记录了segNet的学习过程,包括论文研究和代码调试。在论文部分,介绍了segNet的数据细节和网络构建,特别是针对小数据集的数据增强策略。在debug代码部分,作者遇到并解决了版本冲突和接口问题,最终实现了模型训练和结果输出。
摘要由CSDN通过智能技术生成

segNet学习记录

一.论文部分

1.数据细节

数据集细节我们从m2cai -工具训练集的视频1和2下采样307张图像,并在像素级别将它们注释为各种不同的类别和子类别,如下所示:

  • 器官:肝脏,胆囊,上壁,肠
  • 器械:抓手,双极,钩,剪刀,剪子,冲洗器,标本袋,套管(提供一个插入手术器械的开口),夹子(由剪子应用于密封血管的夹子)
  • 液体:胆汁,血液
  • 杂项:未知(用作标注者无法识别的像素的标签),黑色(用作图像中周围区域的标签,由于套管针限制了相机的视野,所以不可见)
  • 动脉

2.网络构建

由于注释数据的数量相对较少,我们将精力集中在数据效率高的方法上,或者能够很好地处理像我们这样较小的数据集的方法上。我们提出了一个极简的编码器-解码器卷积神经网络,如图2所示。我们将其称为分割网络。
输入图像在训练时被调整为256 x 256。由于我们的数据集很小,我们在训练时进行了10种作物的在线数据增强,我们从所有4个角落和中心取出所有224 x 224作物,以及它们的水平翻转(镜像)。我们通过每通道的RGB均值[0.295,0.204,0.197]和标准偏差[0.221,0.188,0.182]对每个图像进行归一化。这些值是在M2CAI-tool训练集的所有581923帧上计算的。在测试时,输入图像使用相同的均值和标准差进行归一化,但我们没有使用10作物数据增强。在本例中,输入图像的大小被调整为256x256,但是由于我们不使用任何农作物,分辨率保持在256x256,而不是224 x224。对于Encoder部分,我们分别使用64、128、256、512和1024滤波器的卷积层来获得潜在表示。对于网络中的所有卷积层,我们使用的内核大小为4 x 4,步幅为2,填充为1,除了最后一个编码器层,我们使用相同的内核大小,但步幅为1,没有填充。卷积层之后是批处理归一化[16]和ReLU非线性。需要注意的是,我们在网络的第一编码器层中不使用批处理规范化。
在这里插入图片描述

一旦我们获得了输入图像经过Encoder后的潜在表示,然后通过Decoder网络,在那里使用基于分数阶卷积的卷积转置层对其进行连续上采样。我们对Latent表示的网络进行镜像ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值