深度学习(二十一)基于FCN的图像语义分割-CVPR 2015-未完待续

CNN应用之基于FCN的图像语义分割
原文地址:http://blog.csdn.net/hjimce/article/details/50268555
作者:hjimce
一、相关理论
    本篇博文主要讲解2015年的一篇图像语义分割的paper:《Fully Convolutional Networks for Semantic Segmentation》,这篇文献可以说是利用深度学习搞图像分割的开山之作,貌似获得了2015 年CVPR的best paper 奖,具体不是很清楚,只知道很牛逼的一篇文章,搞图像分割必学的文章。仅仅一年的时间,引用量非常高。感觉这篇文献的算法,比较难,如果你以前没有学过反卷网络,也没有接触过Fully Convolutional Networks这个概念,更没有接触过mutil-scale CNN网络,那么看这篇文献,会比较累。
    因为这篇文献的创新点很多,所以我们学起来会比较费劲,请容我细细道来……

未完待续,敬请期待……







Fully convolutional networks

利用深度学习,进行语义分割的开山之作,具有非常高的引用率,所以如果搞到深度学习,图像分割就会遇到这个经典算法。

对于卷积神经网络的每一层的数据,其是一个h*w*d大小的三维矩阵,其中hw表示本层特征图的大小,d表示特征图的个数或者可理解为图片通道数。我们知道对于网络的输入层,如果是3通道的彩色图片,就相当于输入层是3feature map。卷积神经网络具有平移不变性,我们知道,假设卷积神经网络的某一层的数据为X,假设(i,j)坐标的数据为Xij,那么下一层数据的计算公式就是:

 

其中k就是卷积核大小s就是跨步大小。fks可以表示卷积、池化、非线性激活函数等运算。

在传统的卷积神经网络中,我们要求输入的图片是固定大小的图片,那是因为我们在网络的最后几层有个全连接层,在这个全连接层里,输入和输出的大小是固定的,也就是参数的个数是固定的。我们也可以把从卷积层到全连接层,看成是对整张feature map进行卷积,关于FCN的概念,可以去好好解读下Overfeat

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
RGB-D图像语义分割是指基于RGB-D图像的像素级别分类,将每个像素分配到特定的语义类别中。与传统的RGB图像语义分割相比,RGB-D图像语义分割可以利用深度信息提高分割的准确性。以下是基于深度学习的RGB-D图像语义分割研究现状的概述: 1. 深度学习模型:当前主流的深度学习模型包括FCN、SegNet、U-Net、DeepLab等。这些模型通过对RGB-D图像进行联合训练,实现了对深度信息的有效利用,提高了分割的准确性。 2. 数据集:目前常用的RGB-D图像语义分割数据集包括NYUDv2、SUN RGB-D、ScanNet等。这些数据集提供了大规模的RGB-D图像和像素级别的标注,可用于深度学习模型的训练和评估。 3. 特征融合:为了更好地利用RGB和深度信息,研究者们提出了不同的特征融合方法,包括early fusion、late fusion和hybrid fusion等。这些方法可以将RGB和深度信息的特征进行有机结合,提高了分割的准确性。 4. 数据增强:由于RGB-D图像数据集数量有限,为了增加训练数据的多样性,研究者们提出了不同的数据增强方法,包括旋转、翻转、缩放等。这些方法可以增加数据的多样性,提高模型的泛化能力。 5. 应用场景:RGB-D图像语义分割已经被广泛应用于机器人导航、AR/VR等领域,为实现智能化应用提供了技术支持。 综上所述,基于深度学习的RGB-D图像语义分割已经取得了显著的进展,但仍存在一些挑战,如数据噪声、实时性等问题,这些问题需要进一步研究和解决。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值