文献阅读2021.1.24

(1) 基于构图规则的图像美学优化(王伟凝,刘剑聪,徐向民,姜怡孜,王励.基于构图规则的图像美学优化.华南理工大学学报:自然科学版,2015(5):51-58.)
文中提出了一种综合考虑图像主体与背景构图规则的图像自动美学优化方法,根据三分法则和视觉平衡法则,采用主体提取、区域分隔线检测、基于样例的图像修复方法、细缝裁减法、主体重置等方法,通过图像主体位置、大小及背景区域划分的调整对图像进行美化。
在这里插入图片描述

主体美学优化:显著区域大小与整体图像大小的比例为 0.10、0.56 或 0.82 时,图像美感较高。
移除区域优化:确定待修复区域及其边界线后,计算边界线上每个像素点的优先权,找到优先权最大的像素点p,取以p为中心的 n × n像素块 ψp 作为最先修复的待修复块; 依次从图像中寻找最相似的像素块 ψq 作为最佳样例来替换待修复像素块 ψp,重复上述步骤直至修复完毕。
有主体时:
主体重置:具体调整法则为: 若检测到背景中有明显的水平/垂直分隔线,则先判断主体与水平/垂直分隔线相对位置的关系 ,并在重置中保持这种约束关系。(一致性法则约束)
无主体时:
由于基于样例的图像修复方法较为复杂和耗时,因此对于纹理简单的区域(如天空等) ,文中采取细缝裁减算法进行拉伸,而对于纹理复杂的区域(如草地、树丛等) ,则采用基于样例的方法进行拉伸。通过设定合适的纹理复杂度阈值,可自适应地选择合适的方法实现区域优化。
优点:①结合了主体三分法则与区域视觉平衡法则进行图像构图美化,适用于有主体或区域分割线的各类图像美化; ②文中对基于样例的图像修复算法进行了改进,降低了计算量,并在一定程度上提升了修复效果; ③可以根据调整区域的纹理复杂度,自适应选择改进的基于样例的图像修复算法或细缝裁减法进行区域填补,既可以保持图像内容不丢失,处理速度更快,又可以保证修复后纹理的质量; ④在主体重置过程中,对主体与区域分割线的关系进行了一定规则的约束,保证调整后的主体符合客观自然规律。
局限性: ①只能依照常用的构图方式对图像进行美化,不适用于一些个性化较强或者结构复杂的构图方式; ②由于文中方法受制于主体检测与显著分割线检测的效果,因此对于背景复杂的图像,可能会因为主体或分割线提取不准确而导致修复效果不够理想; ③对于多主体及分割线倾斜度较大的图像,文中方法不能进行有效的美化。
(2) Mask R-CNN(He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2961-2969.)
Mask-RCNN 的几个特点:
①训练收敛速度快,分割效果优;②不外加任何trick,多个技术的融合,例如RoIAlign、Faster R-CNN、FPN;③同时完成检测、分割和人体关键点检测任务,并取得start-of-art效果;④基础网络强势:ResNeXt-101+FPN;
在这里插入图片描述
在这里插入图片描述

Mask-RCNN大体框架还是 Faster-RCNN 的框架,可以说在基础特征网络之后又加入了全连接的分割子网,由原来的两个任务(分类+回归)变为了三个任务(分类+回归+分割)。Mask R-CNN 采用和Faster R-CNN相同的两个阶段:
第一个阶段具有相同的第一层(即RPN),扫描图像并生成提议(proposals,即有可能包含一个目标的区域);
第二阶段,除了预测种类和bbox回归,并添加了一个全卷积网络的分支,对每个RoI预测了对应的二值掩膜(binary mask),以说明给定像素是否是目标的一部分。所谓二进制mask,就是当像素属于目标的所有位置上时标识为1,其它位置标识为0。
总体流程:
首先,输入一幅你想处理的图片,然后进行对应的预处理操作,或者预处理后的图片;
然后,将其输入到一个预训练好的神经网络中(ResNet等)获得对应的feature map;
接着,对这个feature map中的每一点设定预定个的ROI,从而获得多个候选ROI;
接着,将这些候选的ROI送入RPN网络进行二值分类(前景或背景)和BB回归,过滤掉一部分候选的ROI;
接着,对这些剩下的ROI进行ROIAlign操作(即先将原图和feature map的pixel对应起来,然后将feature map和固定的feature对应起来);
最后,对这些ROI进行分类(N类别分类)、BB回归和MASK生成(在每一个ROI里面进行FCN操作)。
创新:作者替换了在Faster RCNN中使用的VGG网络,转而使用特征表达能力更强的残差网络(ResNet)。另外为了挖掘多尺度信息,作者还使用了FPN网络。
FPN(特征金字塔网络)的提出是为了实现更好的feature maps融合,一般的网络都是直接使用最后一层的feature maps,虽然最后一层的feature maps 语义强,但是位置和分辨率都比较低,容易检测不到比较小的物体。FPN的功能就是融合了底层到高层的feature maps ,从而充分的利用了提取到的各个阶段的特征。简单来说,就是把底层的特征和高层的特征进行融合,便于细致检测。
将 RoI Pooling 层替换成了 RoIAlign;

在这里插入图片描述
在这里插入图片描述

ROI Pooling和ROIAlign最大的区别是:
经过上述量化,此时的候选框已经和最开始回归出来的位置有一定的偏差,这个偏差会影响检测或者分割的准确度。在论文里,作者把它总结为“不匹配问题”(misalignment)
ROI Align的思路很简单:取消量化操作,使用双线性插值的方法获得坐标为浮点数的像素点上的图像数值。
在这里插入图片描述

双线性插值:
【遍历每一个候选区域,保持浮点数边界不做量化。
将候选区域分割成k×k个单元,每个单元的边界也不做量化。
在每个单元中计算固定四个坐标位置,用双线性内插的方法计算出这四个位置的值,然后进行最大池化操作。】
缺点:在进行最后的mask复原时,仅依靠一个分辨率为28x28的binary mask进行Resize操作,这样会导致最后的分割结果不够准确,细节处理不够好、

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值