Deeper Depth Prediction with Fully Convolutional Residual Networks(FCRN)全卷积残差网络

参考博客

FCRN全卷积残差网络是单目深度估计的一种方法。在FCN全卷积网络的基础上尝试了更深层次的网络带来的好处。

FCRN网络结构

在这里插入图片描述上图中前两行是一个pretrained的ResNet50结构,最后一行为一系列反卷积的结构,使输出图片与输入图片大小近似相等。

FCRN延续了FCN(全卷积网络)的特点,直接去掉了全连接层,取而代之的是一个新的上采样结构.整个网络可以看做是一个encoder-decoder的过程。

插一句去掉全连接层的优点:
第一,是全连接层几乎拥有整个网络的90%以上的参数,去掉全连接层可以更好的利用GPU;
第二,全连接层固定了网络输入输出的大小,只有固定大小的图片才能够被处理。利用encoder-decoder就可以直接处理几乎所有的图片大小。

FCRN的设计与贡献

1.设计Res-Block
在这里插入图片描述反池化是提升图片的分辨率。作者首先使用了图a结构,过2 * 2的un-pooling层,没有值的地方填补0,之后过5 * 5的卷积,使让所有有0的地方都能被卷积到,过relu。采用4个这种结构是综合内存与分辨率的考量,如果使用5块,内存增加且分辨率不会有改善。作者又在该基础上,设计了图c所示的res-block的结构。

2.利用小卷积核使up-convolution更加的有效,降低参数,减少训练时间。
在这里插入图片描述在原有的结构中存在un-pooling(上池化)操作,在实验中发现会导致结果中出现过多 0 值,导致卷积操作无意义。于是采用4种不同的小卷积来代替5*5卷积核,分别进行计算,之后叠加feature map,获得更好的训练效果。

3.使用了huber做loss
在这里插入图片描述
Huber loss具备了MAE和MSE各自的优点,当值在C范围内为|X|就退化成了MAE(L1范式),而当超过C时就则退化为了MSE(L2范式)。Huber 对两种损失都有了一种平衡。大残差的时候使用L2项,同时,对于小残差梯度,L1效果比L2要好。这也使 Huber 对异常点更加鲁棒。

一种改进的方法

利用HKU-IS显著性数据集进行测试,结果如下:
在这里插入图片描述可以看出结果是存在过拟合的。为了进一步增强网络的泛化能力,对原模型做以下改进:
1)在含有 Skip 跳层连接和projection连接的运算中,在第三层卷积中加入了与前两层一样的 Relu 激活函数,同时在最后输出时加入了卷积运算(核 1*1,步长为 1),如下图紫圈标记。
在这里插入图片描述2) 在上采样(up-projection)中,在最后输出时加入了正则化,如下图 3 紫圈标记。
在这里插入图片描述3)在网络结构上有所修改,主要增加了 skip 的操作次数,如下图。
在这里插入图片描述最终测试结果如下:
在这里插入图片描述可以看到,改进后的模型在一些细节上的表现更加出色。

  • 2
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
根据科技情报大数据挖掘与服务系统平台AMiner从人工智能领域国际顶会/期刊中提取出的“卷积神经网络”相关关键词,筛选推荐了100篇经典必读论文,内容包含CNN在检测/识别/分类/分割/跟踪等领域的理论与实践,并按被引用量进行了排序整理。此外,最新的卷积神经网络分类研究进展也会经常出现在计算机视觉相关的国际学术会议和期刊上,例如CVPR、ICCV、ECCV等会议和TPAMI、IJCV等期刊。以下是一些卷积神经网络的参考文献: 1. "ImageNet Classification with Deep Convolutional Neural Networks" by Alex Krizhevsky, Ilya Sutskever, and Geoffrey Hinton (2012) 2. "Very Deep Convolutional Networks for Large-Scale Image Recognition" by Karen Simonyan and Andrew Zisserman (2015) 3. "Going Deeper with Convolutions" by Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich (2015) 4. "Rethinking the Inception Architecture for Computer Vision" by Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, and Zbigniew Wojna (2016) 5. "Deep Residual Learning for Image Recognition" by Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun (2016) 6. "Mask R-CNN" by Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross Girshick (2017) 7. "YOLOv3: An Incremental Improvement" by Joseph Redmon and Ali Farhadi (2018) 8. "EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks" by Mingxing Tan and Quoc V. Le (2019) 9. "Vision Transformers" by Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby (2020) 10. "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows" by Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo (2021)
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值