一、传统分割方法
1.1 基于阈值的分割方法——阈值法
- 基本思想:是基于图像的灰度特征来计算一个或多个灰度阈值,并将图像中每个像素的灰度值与阈值作比较,最后将像素根据比较结果分到合适的类别中。
灰度值表示该像素的亮度,灰度值越大表示该像素的亮度越高,越小表示该像素的亮度越低,通常用0到255的整数来表示;
灰度特征就是利用灰度信息表示区域或者图像的特征,如计算图像的灰度的最大值、最小值、偏差、均值等,还可以算出灰灰度区域的面积和中心,相关算子有gray_features算子、min_max_gray算子、intensity算子、area_ceter_gray算子、select_gray算子等;
- 关键:按照某个准则函数来求解最佳灰度阈值;
- 适用范围:适用于目标和背景占据不同灰度级范围的图;
- 介绍:图像若只有目标和背景两大类,那么只需要选取一个阈值进行分割,此方法成为单阈值分割;但是如果图像中有多个目标需要提取,单一阈值的分割就会出现作物,在这种情况下就需要选取多个阈值将每个目标分隔开,这种分割方法相应的成为多阈值分割
在图像分割的语境中,“作物”是指使用单一阈值分割具有多个目标的图像时出现的过分割现象。在这种情况下,多个对象被分割为单独的区域,这是不可取的。
如上图所示即为对数字的一种阈值分割方法。
-
优点:计算简单,效率较高;
-
缺点:只考虑像素点灰度值本身的特征,一般不考虑空间特征,因此对噪声比较敏感,鲁棒性不高;
-
关键:阈值的选择——若将智能遗传算法应用在阀值筛选上,选取能最优分割图像的阀值,这可能是基于阀值分割的图像分割法的发展趋势;
1.2 基于区域的图像分割方法
- 介绍:以直接寻找区域为基础的分割技术;
- 基本形式:一种是区域生长,从单个像素出发,逐步合并以形成所需要的分割区域;另一种是从全局出发,逐步切割至所需的分割区域;
1.2.1 区域生长算法
- 方法:从一组代表不同生长区域的种子像素开始,接下来将种子像素邻域里符合条件的像素合并到种子像素所代表的生长区域中,并将新添加的像素作为新的种子像素继续合并过程,直到找不到符合条件的新像素为止;
- 关键:选择合适的初始种子像素以及合理的生长准则;
- 要解决的问题:
(1)选择或确定一组能正确代表所需区域的种子像素;
(2)确定在生长过程中能将相邻像素包括进来的准则;
(3)指定让生长过程停止的条件或规则。
1.2.2 区域分裂合并算法
- 方法:从整幅图像出发,不断的分裂得到各个子区域,然后再把前景区域合并,得到需要分割的前景目标,进而实现目标的提取(就是上边那个方法反了一下);
- 典型方法:
- 四叉树分解法:
基本算法:
(1)对于任一区域,如果 H(Ri)=FALSE 就将其分裂成不重叠的四等分;
(2)对相邻的两个区域 Ri 和 Rj,它们也可以大小不同(即不在同一层),如果条件H(RiURj)=TURE 满足,就将它们合并起来;
(3)如果进一步的分裂或合并都不可能,则结束。
其中 R 代表整个正方形图像区域,P 代表逻辑词
优点:对复杂图像分割效果好;
缺点:算法复杂,计算量大;分裂有可能破怪区域的边界
- 分水岭算法:
介绍:它根据分水岭的构成来考虑图像的分割,现实中我们可以想象成有山和湖的景象,那么一定是如下图的,水绕山山围水的景象;
基本思想:是把图像看作是测地学上的拓扑地貌,图像中每一点像素的灰度值表示该点的海拔高度,每一个局部极小值及其影响区域称为集水盆,而集水盆的边界则形成分水岭;
分水岭概念:通过模拟浸入过程来说明。在每一个局部极小值表面,刺穿一个小孔(怎么做到的?),然后把整个模型慢慢浸入水中,随着浸入的加深,每一个局部极小值的影响域慢慢向外扩展,在两个集水盆汇合处构筑大坝,即形成分水岭(就是反映了极小值的影响区域);
作用:分水岭对微弱边缘具有良好的响应,图像中的噪声、物体表面细微的灰度变化都有可能产生过度分割的现象,但是这也同时能够保证得到封闭连续边缘。同时,分水岭算法得到的封闭的集水盆也为分析图像的区域特征提供了可能;
1.3 基于边缘检测的分割方法
-
介绍:通过检测包含不同区域的边缘来解决分割问题,是研究最多的方法之一;
-
基本思想:通常不同区域的边界上像素的灰度值变化比较剧烈,如果将图片从空间域通过傅里叶变换到频率域,边缘就对应着高频部分;
-
方法:按照处理的技术分为串行边缘检测和并行边缘检测:
串行边缘检测:要想确定当前像素点是否属于检测边缘上的一点,取决于先前像素的验证结果;
并行边缘检测:是一个像素点是否属于检测边缘高尚的一点取决于当前正在检测的像素点以及与该像素点的一些临近像素点; -
并行微分算子法:利用相邻区域的像素值不连续的性质,采用一阶或者二阶导数来检测边缘点;
-
优缺点:
(1)边缘定位准确;
(2)速度快;
(3)不能保证边缘的连续性和封闭性;
(4)在高细节区域存在大量的碎边缘,难以形成一个大区域,但是又不宜将高细节区域分成小碎片;
由于上述的(3)(4)两个难点,边缘检测只能产生边缘点,而非完整意义上的图像分割过程——在边缘点信息获取到之后还需要后续的处理或者其他相关算法相结合才能完成分割任务;
在以后的研究当中,用于提取初始边缘点的自适应阈值选取、用于图像的层次分割的更大区域的选取以及如何确认重要边缘以去除假边缘将变得非常重要。
二、结合特定工具的图像分割算法
2.1 基于小波分析和小波变换的图像分割方法
- 小波变换:一种广泛应用的数学工具(我怎么没听过),它在时间域和频率域上都有量高的局部化性质,能将时域和频域统一于一体来研究信号。而且它还具有多尺度特性,能够在不同尺度上对信号进行分析;
- 二进小波变化:可以检测二元函数的局部突变,因此可作为图像边缘检测工具。图像的边缘出现在图像局部灰度不连续处,这里就对应着二进小波变化的模极大值点,从而确定图像的边缘小波变换位于各个尺度上,而每个尺度上的小波变换都能提供一定的边缘信息——可进行多尺度边缘检测来获取理想的图像边缘;
- 可以将小波和其他方法结合起来来处理问题:局部自适应阈值法就是将 Hilbert 图像扫描和小波相结合,从而获得了连续光滑的阈值曲线。
上图左图是传统的阈值分割方法,右边的图像就是利用小波变换的图像分割。
可以看出右图分割得到的边缘更加准确和清晰
2.2 基于遗传算法的图像分割
- 基本思想:模拟由一些基因串控制的生物群体的进化过程,把该过程的原理应用到搜索算法中,以提高寻优的速度和质量——搜索过程不直接作用在变量上,而是在参数集进行了编码的个体,这使得遗传算法可直接对结构对象(图像)进行操作;
- 整个搜索过程是从一组解迭代到另一组解,采用同时处理群体中多个个体的方法,降低了陷入局部最优解的可能性,并易于并行化。而且搜索过程完全就是自适应的;
- 使用要点:擅长于全局搜索,但局部搜索能力不足——所以常把遗传算法和其他算法结合起来应用。用上遗传算法主要是考虑到其具有与问题领域无关且快速随机的搜索能力——搜索从群体出发,具有潜在的并行性,可以进行多个个体的同时比较,能有效的加快图像处理的速度;
- 缺点:搜索所使用的评价函数的设计、初始种群的选择有一定的依赖性等——结合启发算法进行改造并充分利用遗传算法的并行机制。
2.3 基于主动轮廓模型的分割方法
- 主动轮廓模型原理:通过构造能量泛函,在能量函数最小值驱动下,轮廓曲线逐渐向待检测物体的边缘逼近,最终分割出目标。使用时可以灵活的选择择约束力、初始轮廓和作用域等,以得到更佳的分割效果;
- 基本思想:先定义初始曲线 C,然后根据图像数据得到能量函数,通过最小化
能量函数来引发曲线变化,使其向目标边缘逐渐逼近,最终找到目标边缘; - 优点:这种动态逼近方法所求得的边缘曲线具有封闭、光滑等优点;
- 分类:传统的主动轮廓模型大致分为参数主动轮廓模型和几何主动轮廓模型:
- 参数主动轮廓模型将曲线或曲面的形变以参数化形式表达——Snake模型;
特点:是将初始曲线置于目标区域附近,无需人为设定曲线的的演化是收缩或膨胀;
优点:是能够与模型直接进行交互,且模型表达紧凑,实现速度快;
缺点:难以处理模型拓扑结构的变化——得用水平集的集合活动方法来解决; - 几何主动轮廓模型:没说。
三、基于深度学习的分割
3.1 分割前的基础(抽取特征所使用的框架)
3.1.1 VGGNet
通过反复的堆叠 33 的小型卷积核和 22 的最大池化层,成功的构建了 16~19 层深的卷积神经网络
- 优缺点:
- 由于参数量主要集中在最后的三个 FC 当中,所以网络加深并不会带来参数爆炸的问题;
- 多个小核卷积层的感受野等同于一个大核卷积层(三个 3x3 等同于一个 7x7)但是参数量远少于大核卷积层而且非线性操作也多于后者,使得其学习能力较强;
- VGG 由于层数多而且最后的三个全连接层参数众多,导致其占用了更多的内存(140M)
3.1.2 ResNet
为了解决梯度消失问题(随着深度出现),就出了ResNet模型。
- 核心思想:是在网络中引入恒等映射(就是x=x这样的函数用以解决梯度消失问题,如下图所示),允许原始输入信息直接传到后面的层中,在学习过程中可以只学习上一个网络输出的残差(F(x))——又叫残差网络
- 优缺点:
- 引入了全新的网络结构(残差学习模块),形成了新的网络结构,可以使网络尽可能地加深;
- 使得前馈/反馈传播算法能够顺利进行,结构更加简单;
- 恒等映射地增加基本上不会降低网络的性能;
- 建设性地解决了网络训练的越深,误差升高,梯度消失越明显的问题;
- 由于 ResNet 搭建的层数众多,所以需要的训练时间也比平常网络要长
- 用了ResNet的模型:
1.Efficient Neural Network(ENet):该网络类似于 ResNet 的 bottleNeck
方法;
2.ResNet-38:该网络在训练 or 测试阶段增加并移除了一些层,是一种浅层网 络,它的结构是 ResNet+FCN;
3.full-resolution residual network(FRRN):FRRN 网络具有和 ResNet 相同
优越的训练特性,它由残差流和池化流两个处理流组成;
4.AdaptNet:根据 ResNet-50 的网络进行改进,让原本的 ResNet 网络能够在更 短的时间内学习到更多高分辨率的特征;
3.2 基于区域选择(分割算法)
- Regional proposal:目标检测常用的一个算法,简单来说就是在一张图像中能够检测出物体所在的区域并且给出物体类别概率,其核心有定位与识别两大模块;
3.2.1 R-CNN
该网络结构如下所示:
主要流程:先使用 selective search 算法提取 2000 个候选框(2),然后通过卷积网络对候选框进行串行的特征提取(3),再根据提取的特征使用 SVM 对候选框进行分类预测(4),最后使用回归方法对区域框进行修正;
- 优缺点:
- 是首个开创性地将深度神经网络应用到目标检测的算法;
- 使用Bounding Box Regression 对目标检测的框进行调整;
- 由于进行特征提取时是串行,处理耗时过长;
- Selective search 算法在提取每一个 region 时需要 2s 的时间,浪费大量时间
3.2.2 Fast R-CNN
这个模型主要就是针对R-CNN效率不高的问题来进行改进。其网络结构如下图所示:
(从提取特征开始,略掉了 region 的选择);
改进的地方:它是直接使用一个神经网络对整个图像进行特征提取,就省去了串行提取特征的时间;
接着使用一个 RoI Pooling Layer 在全图的特征图上摘取每一个 RoI 对应的特征,再通过 FC 进行分类和包围框的修正
- 优缺点:
- 节省了串行提取特征的时间;
- 除了 selective search 以外的其它所有模块都可以合在一起训练;
- 最耗时间的 selective search 算法依然存在;
3.2.3 Faster R-CNN
就是把 selective search 算法换成了RPN,其网络结构如下图所示:
- 优缺点:
- 使用 RPN 替换了耗时的 selective search 算法,对整个网络结构有了突破性的优化;
- Faster R-CNN 中使用的 RPN 和 selective search 比起来虽然速度更快,但是精度和 selective search 相比稍有不及,如果更注重速度而不是精度的话完全可以只使用RPN;
3.2.4 Mask R-CNN
基于 Faster R-CNN 模型的一种新型的分割模型,它主要完成了三件事:目标检测,目标分类,像素级分割。
- 改进点:在 Faster R-CNN 的结构基础上加上了 Mask 预测分支,并且改良了 ROI Pooling , 提 出 了 ROI Align;
- 优缺点:
- 引入了预测用的 Mask-Head,以像素到像素的方式来预测分割掩膜,并且效果很好;
- 用 ROI Align 替代了 ROI Pooling,去除了 RoI Pooling 的粗量化,使得提取的特征与输入良好对齐;
- 分类框与预测掩膜共享评价函数,虽然大多数时间影响不大,但是有的时候会对分割结果有所干扰
3.2.5 Mask Scoring R-CNN
- 改进点:Mask R-CNN有个小毛病,就是评价函数只对目标检测的候选框进行打分,而不是分割模板,所以会出现分割模板效果很差但是打分很高的情况——增加了对模板进行打分的 MaskIoU Head;
- 优缺点:
- 优化了 Mask R-CNN 中的信息传播,提高了生成预测模板的质量;
- 未经大批量训练的情况下,就拿下了 COCO 2017 挑战赛实例分割任务冠军;
- 要说缺点的话。应该就是整个网络有些庞大,一方面需要 ResNet 当作主干网络,另一方面需要其它各种 Head 共同承担各种任务
3.3 基于RNN的图像分割
RNN能够运用到计算机视觉任务上。它是由LSTM块组成的网络,它来自序列数据的长期学习能力以及随着二序列保存记忆的能力使其能够面对计算机视觉任务。
3.3.1 ReSeg模型
在 ReSeg 中作者使用 RNN 去检索上下文信息,以此作为分割的一部分依据。
- 核心: Recurrent Layer,它由多个 RNN 组合在一起,捕获输入数据的局部和全局空间结构;
- 优缺点:
- 充分考虑了上下文信息关系;
- 使用了中值频率平衡,它通过类的中位数(在训练集上计算)和每个类的频率之间的比值来重新加权类的预测。这就增加了低频率类的分数,这是一个更有噪声的分割掩码的代价,因为被低估的类的概率被高估了,并且可能导致在输出分割掩码中错误分类的像素增加
3.3.2 MDRNNS模型
该模型将RNN一定程度上扩展到了多维空间领域,使之在图影处理上能有所表现。
- 基本思想:将单个递归连接替换为多个递归连接,相应可以在一定程度上解决时间随数据样本的增加呈指数增长的问题;
- 算法:
3.4 基于上采样/反卷积的分割方法
CNN会通过丢失部分细节来得到更具特征的价值。但是此过程是不可逆的,而且有时候会导致图像分辨率太低,从而导致细节丢失等问题——通过上采样来补全一些丢失的信息,从而获得更准确的分割边界。
- 著名分割模型:
-
FCN:反卷积-升采样结构中,图片会先进性上采样(扩大像素);再进行卷积——通过学习获得权值。其结构如下图所示:
优缺点:
(1) FCN 对图像进行了像素级的分类,从而解决了语义级别的图像分割问题;
(2) FCN可以接受任意尺寸的输入图像,可以保留下原始输入图像中的空间信息;
(3) 得到的结果由于上采样的原因比较模糊和平滑,对图像中的细节不敏感;
(4) 对各个像素分别进行分类,没有充分考虑像素与像素的关系,缺乏空间一致性; -
SetNet:旨在解决自动驾驶或者智能机器人的图像语义分割深度网络,它是基于FCN的,只是其编码-解码器略有不同,它的解码器中使用去池化来对特征图进行上采样,并在分各种保持高频细节的完整性;而编码器不使用全连接层,因此是 拥有较少参数的轻量级网络:
优缺点:
(1) 保存了高频部分的完整性;
(2) 网络不笨重,参数少,较为轻便;
(3) 对于分类的边界位置置信度较低;
(4) 对于难以分辨的类别,例如人与自行车,两者如果有相互重叠,不确定性会增加。
上面的两种网络结构就是基于反卷积/上采样的分割方法,尤其是FCN,这东西是具有开创意义的
3.5 基于提高特征分辨率的分割方法
FCN要先减小图片尺寸(卷积)然后再增大(上采样),这会使得有一些信息的丢失。该方法旨在恢复在深度卷积神经网络中下降的分辨率,从而获取更多的上下文信息。DeepLab:是结合了深度卷积神经网络和概率图模型的方法。
- 先进性主要是通过 DenseCRFs(概率图模型)和 DCNN 的结合 。是将每个像素视为 CRF 节点,利用远程依赖关系并使用 CRF 推理直接优化 DCNN 的损失函数;
- 亮点:Dilated/Atrous Convolution,它使用的采样方式是带有空洞的采样。在 VGG16 中使用不同采样率的空洞卷积,可以明确控制网络的感受野(指输出feature map上某个元素受输入图像上影响的区域);
图 a 对应 3x3 的 1-dilated conv,它和普通的卷积操作是相同的;图 b 对应 3x3 的 2-dilated conv, 事迹卷积核的尺寸还是 3x3(红点),但是空洞为 1,其感受野能够达到 7x7;图 c 对应 3x3 的 4-dilated conv,其感受野已经达到了 15x15
——>在使用空洞卷积的情况下,加大了感受野,使每个卷积输出都包含了较大范围的信息
这样就解决了DCNN的几个关于分辨率的问题:内部数据结构丢失;空间曾计划信息丢失;小物体信息无法重建;
空洞卷积的问题:
(1) 网格效应加入我们仅仅多次叠加 dilation rate 2 的 3x3 的卷积核则会出现以下问题我们发现卷积核并不连续,也就是说并不是所有的像素都用来计算了,这样会丧失信息的连续性;
(2) 小物体信息处理不当:由于空洞卷积是拿来获取long-ranged information,所以对小物体的分割就不太行——基于特征增强的分割方法包括提取多尺度特征或者从一系列嵌套的区域中提取特征;
3.6 基于特征增强的分割方法
这是一种基于图像特征增强的图像分割方法,它通过对图像的特征进行增强,来提高图像分割的准确性。
该方法包括:提取多尺度特征或者从一系列嵌套的区域中提取特征。
图像分割的深度网络中,CNN经常应用在图像的 小方块 上,也就叫做以每个像素为中心的固定大小的卷积核——通过观察其周围的小区域来标记每个像素的分类;
而能够结合上下文信息的深度网络所得到的结果一般也会更好,不过这种情况的计算代价也很高——多尺度特征提取
SLIC(simple linear iterative cluster),一种 生成超像素 的算法。
- 超像素:把像素级的图像划分成为区域级(district-level)的图像,把 区域当成是最基本的处理单元 ,这就是超像素啦;
- 基本思想:将图像从 RGB 颜色空间转换到 CIE-Lab 颜色空间,对应每个像素的(L,a,b)颜色值和(x,y)坐标组成一个 5 维向量 V[l, a, b, x, y],两个像素的相似性即可由它们的向量距离来度量,距离越大,相似性越小;
- 流程:算法 先生成K个种子点,然后后在每个种子点的周围空间里搜索距离该种子点最近的若干像素,将他们归为与该种子点一类,直到所有像素点都归类完毕。接着计算这 K 个超像素里所有像素点的平均向量值,重新得到 K 个聚类中心,然后再以这 K 个中心去搜索其周围与其最为相似的若干像素,所有像素都归类完后重新得到 K 个超像素,更新聚类中心,再次迭代,如此反复直到收敛
——有点像K-Means算法,它最终会得到K个超像素; - 应用:Zoom-Out分类方法,它从多个不同的级别提取特征:
(1) 局部级别:超像素本身;
(2) 远距离级别:能够包好整个目标的区域;
(3) 全局级别:整个场景;
而这样综合考虑多尺度的特征对于像素或者超像素的分类以及分割来说都是很有意义的。
FCN对关系和全局信息处理能力存在的问题:1.上下文推断能力不强;2.标签之间的关系处理不好;3.模型可能会忽略小的东西。
PSPNet(Pyramid Scene Parsing Network):一个具有层次全局优先级,包含不同子区域时间的不同尺度的信息,称之为金字塔池化模块:
该模块融合了 4 种不同金字塔尺度的特征,第一行红色是最粗糙的特征——全局池化生成单个 bin 输出,后面三行是不同尺度的池化特征。为了保证全局特征的权重,处理后的信息再通过卷积和上采样恢复到原始大小。
最终结果就是,在融合不同尺度的 feature 后,达到了语义和细节的融合,模型的性能表现提升很大。
为了捕捉多尺度特征,高层特征包含了更多的语义和更少的位置信息。结合多分辨率图像和多尺度特征描述符的优点,在不丢失分辨率的情况下提取图像中的全局和局部信息,这样就能在一定程度上提升网络的性能。
3.7 使用 CRF/MRF 的方法
MRF(Marcov Random Field,马尔可夫随机场),其实是一种基于统计的图像分割算法;
- 马尔可夫模型则是指一组事件的集合,在这个集合中,事件逐个发生,并且下一刻事件的发生只由当前发生的事件决定,而与再之前的状态没有关系;
- MRF:具有马尔可夫模型特性的随机场,就是场中任何区域都只与其临近区域相关,与其他地方的区域无关,那么这些区域里元素(图像中可以是像素)的集合就是一个马尔可夫随机场;
- 条件随机场CRF:可理解为一种特殊的马尔可夫随机场,只不过是它是一种给定了一组输入随机变量 X 的条件下另一组输出随机变量 Y 的马尔可夫随机场。可以看作是 最大熵马尔可夫模型 在标注问题上的推广;
- 应用:全连接条件随机场(DenseCRF),由于CRF只对相邻节点进行操作,这会损失一些上下文信息,而全连接条件随机场则是对所有节点进行操作,从而获取尽可能多的临近点信息,进而获取更加精准的分割结果。
吉布斯能量计算公式,但是不太清楚这是个啥。
能量函数:描述整个系统状态的一种测度,系统越有序或概率分布越集中,系统的能量越小。反之,系统越无序或趋于均匀分布,则系统的能量越大。能量函数的最小值,对应于系统的最稳定状态;
这里的第一项是一元势函数,此时只考虑当前像素的类别,不考虑其他像素的类别;
而第二项则代表二元势函数(pairwise potentials),也叫平滑项,它鼓励特征相似的像素具有一致的标签;
其中,二元势函数*可以定义为:
其中 k(m)为高斯核,写作:
该模型的一元势能包含了图像的形状,纹理,颜色和位置,二元势能使用了对比度敏感的的双核势能,而CRF的二元势函数一般是描述像素点与像素点之间的关系(使用该模型在图像中的所有像素对上建立点对势能从而实现极大地细化和分割)——鼓励相似像素分配相同的标签,而相差较大的像素分配不同标签
分割效果如下图所示:
可以看到它在精细边缘的分割比平常的分割方法要出色得多,而且文章中使用了另一种优化算法,使得本来需要及其大量运算的全连接条件随机场也能在很短的时间里给出不错的分割结果。
优缺点:
(1) 在精细部位的分割非常优秀;
(2) 充分考虑了像素点或者图片区域之间的上下文关系;
(3) 在粗略的分割中可能会消耗不必要的算力;
(4) 可以用来恢复细致的局部结构,但是相应的需要较高的代价
四、医疗图像分割算法
4.1 U-net
这是基于 FCN 的一种语义分割网络,适用于做医学图像的分割。它也分为上/下采样两个阶段,但网络结构中只有卷积层和池化层,没有全连接层。
较浅的高分辨率层用来解决像素定位的问题,较深的层用来解决像素分类的问题,从而可以实现图像语义级别的分割
不同:
(1) U-net 的上采样阶段与下采样阶段采用了相同数量层次的卷积操作,且使用 skip connection 结构将下采样层与上采样层相连,使得下采样层提取到的特征可以直接传递到上采样层,这使得 U-net 网络的像素定位更加准确,分割精度更高;
(2) 在训练过程中,U-net只需要一次训练,FCN 为达到较精确的 FCN-8s 结构需要三次训练,故 U-net 网络的训练效率也高于 FCN 网络;
其网络结构如下图所示:
蓝色箭头代表卷积和激活函数, 灰色箭头代表复制剪切操作, 红色箭头代表下采样, 绿色箭头代表反卷积,conv 1X1 代表卷积核为 1X1 的卷积操作。从图中可以看出,U-net 网络没有全连接层,只有卷积和下采样。U-net 可以对图像进行端到端的分割,即输入是一幅图像, 输出也是一幅图像
- 应用:3D U-net、 V-net…
但是这个模型我之前读的文章是拿来做降水预测的。。。有空去看看他的后续发展吧;
4.2 RNN
传统的神经网络假定不同输入和输出之间是相互独立的,网络中不存在反馈连接,而 RNN 网络结构中至少包含一个反馈连接(自循环),即 假定当前输出不仅与当前输入有关,也与先前输出有关
—— RNN 适合于解决时间处理和顺序学习问题
在实际训练过程中,梯度消失的问题使得传统 RNN 在实际中很难处理长期依赖
——LSTM可以避免这种问题,从而学习到长期依赖关系;
RNN 可用于医学图像分割问题,也可以变成3D LSTM-RNN来对对脑部 MR 图像进行分割,用金字塔方式重新排列 MD-LSTM 中传统的长方体计算顺序,使得网络可以在 GPU 上并行训练,大大提高了网络训练效率,并在MRBrainS 挑战中取得了很好的分割结果…
总结
有一些模型更像是U-net等不仅可以运用到本文所提及的医疗方面,更可以将其运用到降水预测等视频预测问题上。不过这些模型对于物体分割的要求好像更多的是精确度(分割细度?),这种要求可否运用到热带气旋上?感觉热带气旋一般都i是框框框出来的,不过也有框框大小的区别,这个还可以再看看
未来展望
我现在的想法就是运用这些模型来对云团进行检测,然后分析出其中可能为热带气旋的云团,从而进行轨迹预测等。