基本原则:神经网络是一种技术,可以用在任何一个领域。因而,不论是在哪个领域,面临的问题都是类似的。这里所说的“领域”,不仅是应用领域,同样包括技术领域。我粗浅地相信,循环神经网络,或是Transformer,或是MLP,或是CNN,虽然神经网络架构不同,任务可能分为检测、分割,但是面临的问题是类似的。所以,在论文阅读中,应当弱化具体的应用场景,转而提取出更抽象的,更学术或者更工程的问题来描述,从而学习到更通用的知识和技能。
重点
本文提出了一种使用DNN(Deep Neural Network)解决二分类分割问题的思路。(但是其中的二分类函数使用的是Softmax,而不是Sigmoid,因而具有比Sigmoid更好的任务扩展性。)
本任务是对神经细胞边界进行标注,因而正样本为边界像素,负样本为非边界像素。神经细胞如下图所示。
- 每张图大小均为5125121的灰度图像,正负样本不均衡。其中,正样本每张图约50000个,其余均为负样本。因而,均衡方法为:正样本全部取到,负样本无重复地选择50000个,即,每张图取到100k个样本点作为训练样本。
- 分割方法。使用分类问题对该任务进行建模。
- 在图像下采样方面,过去采用的方法为“下采样”方法(暂时估计是某种插值法),文中选择了最大池化方法,认为“最大池化法得到的是最具有表征能力的特征点”
- 使用了矩形窗函数的方法来提取输入样本,在减少输入数据的同时,方便进行图像处理。具体的,以某个样本点为中心,选择一个宽高为 w w w的窗口。该窗口作为感受野,为中心像素点的分类提供环境依据。神经网络将参考中心像素点附近的这个窗口内的像素,来判断中心像素点是否是一个边界点。
- 当中心像素点取到图像的边界点时,窗口内会出现空位。空位使用对称图像的方式进行填充
- 数据增强方法采用了foveation和non-uniform sampling的方法。foveation是一种模糊方法,越靠近中心像素越清楚,越靠近边缘像素越模糊。这类似于景深概念。non-uniform sampling是一种不均匀图像映射方法,类似于鱼眼摄像头。越靠近边缘图像压缩越厉害。具体如下图棋盘格所示。
- 使用了不同大小的窗函数,而后对结果取平均。论文中说,是variance大而bias小,因而产生了这样做的念头。
- 网络结构。以
w
=
65
w=65
w=65为例。这里输入图像为1张图,经过一层卷积层后,变为了48张图。估计是每一层卷积层,都是48个卷积核。但是卷积核之间是如何连接的,是channel wise或者是full connection,不得而知。
评价
本文是比较接近“神经网络技术在分割问题上的应用”的初始文章。其中,使用分类模型对分割任务进行建模,使用Softmax函数进行分类的思想,在全卷积神经网络中得到了继承。本文收录于2012年,GPU、Implementation等都不成熟,不能支持更大的输入图像以及更复杂的神经网络,为后面的全卷积神经网络留下了空间。