思考: 现有图像分割算法的缺陷

最新推荐文章于 2024-08-11 13:21:52 发布

JNingWei

最新推荐文章于 2024-08-11 13:21:52 发布

阅读量4k

点赞数 6

分类专栏： Idea与思考文章标签：图像算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jningwei/article/details/78823496

版权

Idea与思考专栏收录该内容

8 篇文章 10 订阅

订阅专栏

设计缺陷

人们在关注图像中的生命个体（尤其是人）的时候，关注点 往往 只是目标的脸和手脚 。这部分区域虽小，却给观者提供了对目标个体进行联想的绝大部分信息。

现有的图像分割算法 却 只是对均匀权重的像素点阵进行圈地运动

pixel-level segment

即便是图像分割算法中常提到的 pixel-level segment（像素级分割），其实也只是 对均匀权重的像素点阵 进行的 无差别意义上的 pixel-level segment。

然而，生活中最能被广泛运用到的，却是 侧重针对关注点区域 的 pixel-level segment，其他区域分割得即使不精细，也没那么重要（当然也有例外，例如用于P图和特别针对衣服设计的分割算法除外）。

即便是当下不可一世的Mask RCNN算法，也是基于此思路。高举 pixel-level segment 的大旗，其实行的是 基于像素点阵无差别 这一 默认前提 的 pixel-level segment 。

那么问题来了，对关注点和非关注点都进行 pixel-level segment 不就两全其美了么？其实不然。现有的算法在训练过程中，对实例区域中的关注点和非关注点进行 无差别对待，那么算法就会 习得顾全 “大局” 的缺陷 。对于 某些实例之间交错的狭长区域，慑于 loss计算带来的可怕成长记忆 而 自动放弃申索 。这种缺陷即使在Mask RCNN论文贴出的上佳效果图中也能窥见一斑：

这里写图片描述

蓝色实例的个体，由于他的双手（可视为与本实例主体区域相连的狭长区域）伸入了其他实例的主体区域，结果就被算法回归到其他实例身上去了。仔细想想，如果手被分割错了，感觉是个大事情；如果衣角帽檐被分割错了，who care ？

缺陷普遍存在

同样的设计缺陷还发生在其他图像识别算法的设计中，例如我们对人们拍摄的照片进行图像分类然后归档。

假设某个小文青非要拍一张既唯美又富有深意的照片，表达出《人类在大自然面前是多么滴渺小》这么一个高逼格的主题，那么Ta很有可能这么拍：

这里写图片描述

很明显，Ta 想表达的重点 是 画面中央的人 。然而由于人的像素区域占比太小，很可能不被图像识别算法识别出来，于是直接被算法自动归档到《纯风光》类别而不是《行为艺术》类别的照片里面去了。

其实说白了就是图像分割中的 不平衡采样 问题。

Attention Segment

我们需要一个全新的分割思路，即 Attention Segment (关注点分割) 。

那么就要从源头做起了，即指定新的图像分割标记方法。

Attention Segment (关注点分割) 需要的是全新的标记方法：不仅要把每个实例的边界区域圈出来，还要对每个实例区域中额外再分出关注度大于指定阈值的区域。当然，如果你想设置多级阈值进行多级划分，最后的效果估计会更好，但是会不会被图像标记工程师打，这个我就不敢保证了。(￣▽￣)~*

传统标记法其实就是记录二维矩阵。经过全新标记法得到的标记数据却是一个三维矩阵（增加的第三维是该像素点的关注度权重值）。

由该三维矩阵生成的ground_truth，与神经网络预测出的三维分割图进行比对，计算loss，再通过反馈机制调整神经网络。虽然收敛时间会比之前久一点，但是效果肯定也会比之前的好。
（我猜的啊。。。(＞﹏＜) ，效果没提升别打我）

以上是我个人的一点小小idea。（￣︶￣）↗

关注

6
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。