pixel net(未完成)

abstract
我们探索关于一般像素级预测问题的方法,从低水平的边缘预测,到中水平的表面预测,到高水平的语义分割。例如fully-convolutional network(FCN)这类的卷积预测,通过卷积过程处理相邻像素的的空间冗余,已经实现了显著性的成功。虽然计算效率很高,由于空间冗余限制了在相邻像素间的信息获取,所以我们指出这样的方法不具有统计性效率。我们指出对像素的分层采样需要允许。
(1)在批量更新的时候增加多样性,从而加快学习。
(2)探索负载的非线性预测来增强准确率。
(3)针对不同的像素标签(pixel-labeling)任务,有效的训练崭新的最前沿的模型
我们的架构在PASCAL-Context数据集上的语义分割,NYUDv2深度数据集上的曲面法线估计以及BSDS上的边缘检测上,产生了最先进的结果。

很多计算机视觉问题可以当成一个密集的像素预测问题,其中包括边缘预测光流等低级别的任务,深度复原等中等级别的任务,还有关键点检测,对象检测和语义分割等高级别的任务。虽然这样的表述由于其普遍性显得很有吸引力,但是它巨大的相关输出空间造成了很大的困难。例如,一个100*100且每个像素有10个离散类标签的问图像,回产生输出空间为 105 ,一个策略是将其作为(spatially-invariant label problem)空间不变标签预测问题,每个像素预测单独的标签都是用卷积结构体系。具有卷积预测输出的神经网络,也称为完全卷积网络Fully Convolutional Networks(FCNs),在这个方向上似乎是很有前景的架构。

但这是密集像素标签的理想表述吗?尽管在测试时间生成预测的计算效率很高,但我们认为对于基于梯度的学习来说,这并不具有统计效率。随即梯度下降法Stochastic gradient descent(SGD)假设训练数据独立同分布(i.i.d),其中,一个常用的鉴定标准:训练数据中满足(i.i.d)的样本可以随机置换。这可以显著的提高学习性。我们知道,给定图片中的像素是高度相关且不独立的。我们试着在学习过程中对像素进行了随机排列,这显然破坏了卷积结构的空间规律。在本文中,我们探索卷积学习在统计和计算效率之间的权衡,并且在每个SGD批量跟新时,简单地对少量图像中合适的像素数进行采样,在可能的情况下利用卷积处理。

贡献:
(1)我们通过实验证明,由于像素间的空间相关性,每个图像只采样少量样本就足够用于学习。更重要的是,在不能提前的情况下(not early possible),采样允许我们可以训练端到端的特定的非线性模型。并探索在基于FCN的框架下,改进效率和性能的几种途径。
(2)与绝大多数使用预训练网络的模型相反,我们展示了像素级优化可以用来训练模型,或者用简单的随机高斯初始化从头开始。直观来说,和图像级标签相比,像素级标签提供了大量可监督的标签。不需要其他的数据,们的模型比PASCAL VOC-2012上的先前的无监督/自我监督的语义分割方法更胜一筹,在对表面法线估计的预处理模型的微调上,我们的模型也很有竞争力。
(3)我们使用一个单一的体系结构,没有太多的参数修改,在BSDS我们展示了边缘检测性能,在NYUDv2深度数据集我们展示了表面正态估计,以及在PASCAL-Context数据集上我们展示了语义分割,都达到了最先进的效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值