思考: 现有 图像分割算法 的缺陷

设计缺陷

人们在关注图像中的生命个体(尤其是人)的时候,关注点 往往 只是目标的脸和手脚 。这部分区域虽小,却给观者提供了对目标个体进行联想的绝大部分信息

现有的图像分割算法只是对均匀权重的像素点阵进行圈地运动

pixel-level segment

即便是图像分割算法中常提到的 pixel-level segment(像素级分割),其实 也只是 对均匀权重的像素点阵 进行的 无差别意义上的 pixel-level segment

然而,生活中最能被广泛运用到的,却是 侧重针对 关注点区域pixel-level segment,其他区域分割得即使不精细,也没那么重要(当然也有例外,例如用于P图和特别针对衣服设计的分割算法除外)。

即便是 当下不可一世的Mask RCNN算法,也是基于此思路。高举 pixel-level segment 的大旗,其实行的是 基于像素点阵无差别 这一 默认前提pixel-level segment

那么问题来了,对 关注点 和 非关注点 进行 pixel-level segment 不就两全其美了么?其实不然。现有的算法在训练过程中,对实例区域中的 关注点 和 非关注点 进行 无差别对待,那么算法就会 习得 顾全 “大局” 的缺陷 。对于 某些实例之间交错的狭长区域慑于 loss计算 带来的 可怕成长记忆自动放弃申索 。这种缺陷即使在Mask RCNN论文贴出的上佳效果图中也能窥见一斑:

这里写图片描述

蓝色实例的个体,由于他的双手(可视为与本实例主体区域相连的狭长区域)伸入了其他实例的主体区域,结果就被算法回归到其他实例身上去了。仔细想想,如果手被分割错了,感觉是个大事情;如果衣角帽檐被分割错了,who care ?

缺陷普遍存在

同样的设计缺陷还发生在其他图像识别算法的设计中,例如我们对人们拍摄的照片进行图像分类然后归档。

假设某个小文青非要拍一张既唯美又富有深意的照片,表达出《人类在大自然面前是多么滴渺小》这么一个高逼格的主题,那么Ta很有可能这么拍:

这里写图片描述

很明显,Ta 想表达的重点画面中央的人 。然而由于人的像素区域占比太小,很可能不被图像识别算法识别出来,于是直接被算法自动归档到《纯风光》类别而不是《行为艺术》类别的照片里面去了。

其实说白了就是 图像分割中 的 不平衡采样 问题。

Attention Segment

我们需要一个全新的分割思路,即 Attention Segment (关注点分割)

那么就要从源头做起了,即指定新的图像分割标记方法。

Attention Segment (关注点分割) 需要的是全新的标记方法:不仅要把每个实例的边界区域圈出来,还要对每个实例区域中额外再分出关注度大于指定阈值的区域。当然,如果你想设置多级阈值进行多级划分,最后的效果估计会更好,但是会不会被图像标记工程师打,这个我就不敢保证了。( ̄▽ ̄)~*

传统标记法其实就是记录二维矩阵。经过全新标记法得到的标记数据却是一个三维矩阵(增加的第三维是该像素点的关注度权重值)。

由该三维矩阵生成的ground_truth,与神经网络预测出的三维分割图进行比对,计算loss,再通过反馈机制调整神经网络。虽然收敛时间会比之前久一点,但是效果肯定也会比之前的好。
(我猜的啊。。。(>﹏<) ,效果没提升别打我)

以上是我个人的一点小小idea。( ̄︶ ̄)↗

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值