无需用户输入,Adobe提出自动高质量图像合成新方法

本文转载自机器之心。

选自arXiv

作者:He Zhang等

机器之心编译

编辑:小舟、杜伟

没有用户输入,也能生成高质量的合成图像吗?

图像合成是指组合不同图像中的部分区域以合成一张新的图像,一个常见的用例是肖像图片的背景替换。为了获得高质量的合成图像,经常需要专业人员手动执行多个编辑步骤,例如图像分割、抠图、前景色彩去污,即使使用复杂的图像编辑工具,这些步骤也是非常耗时的。

近日,Adobe 联合约翰霍普金斯大学的研究者提出了一种无需用户输入即可生成高质量合成图像的新方法。该方法能够进行端到端的训练,以优化对前景和背景图像上下文和颜色信息的利用,其中在优化过程中考虑了合成质量。

具体而言,受拉普拉斯金字塔融合(Laplacian pyramid blending)的启发,该研究提出一种密集连接的多流融合网络,以有效融合来自不同前景和背景图像的信息。

此外,该研究还引入了一种自学式(self-taught)的策略,以逐步训练从简单到复杂的用例,进而弥补训练数据不足的问题。实验表明,该方法能够自动生成高质量的合成图像,并在定性和定量评估中均优于现有方法。

论文链接:https://arxiv.org/pdf/2011.02146.pdf

论文简介

该研究提出了一种基于深度学习的图像合成框架,可以在给定一对前景和背景图像的情况下直接生成合成的肖像图像。前景分割网络与细化网络一起用于提取肖像蒙版。基于肖像蒙版,研究者又提出了一种端到端多流融合(MLF)网络,从而以不同比例合成前景和背景图像。

MLF 网络的设计思想来自拉普拉斯金字塔混合方法。它使用两个编码器分别提取前景和背景图像的不同级别的特征图,然后通过解码器逐级融合,以重建最终的合成结果。该方法是全自动的,着重于缓解由于前景遮挡和颜色净化不完善导致的边界伪影。大体而言,该论文解决了图像合成中颜色、外观协调的正交问题。

此外,该研究提出了一种从易到难的自学式数据增强方案,以生成用于训练 MLF 网络的高质量合成数据。基本思想是使用在更简单数据上进行训练的 MLF 网络,以组合更具挑战性的训练数据来实现性能提升。

在合成图像和真实图像上评估的实验结果表明,该方法较以往方法更加有效。用户研究的结果也验证了该方法卓越的感知质量。

深度图像合成

虽然在该论文中仅将其实现用于肖像合成,但该框架是通用的。研究者也希望将其用于其他图像合成的应用。

该框架将一对前景和背景图像作为输入,并生成合成图像。它由三个部分组成:前景分割网络、蒙版细化网络和多流融合网络。、

首先,分割网络自动从前景图像中提取对象蒙版,然后蒙版细化网络将图像和蒙版作为输入以细化蒙版边界,最后将重新定义的蒙版和前景背景图像一起传输到多流融合网络以生成合成结果。

多流融合图像合成网络的结构示意图如下所示:

从易到难的数据增强

为了训练多流融合(MLF)网络,每个训练样本都是三元组 [FG、BG、C]。其中 FG 是前景图像,BG 是背景图像,C 是 FG 和 BG 的目标合成图像。研究者希望 MLF 网络学习在 FG 和 BG 之间产生视觉上的最佳合成效果,因此目标图像 C 的质量是该方法的关键。但是手动创建高质量的合成数据集需要专家级的人工操作,这就限制了训练数据收集的可扩展性。

为了解决该问题并生成无需人工干预就能进行大规模图像合成的数据集,该研究提出了一种使用自学式方案且易于处理的数据扩展方法。基本思想是使用 MLF 网络生成更具挑战性的数据以提升自身性能。

该研究首先在一些简单的三元组上训练 MLF 网络,其中前景图像 FG 是具有简单彩色背景的肖像图像。然后收集了很多这样的简单肖像图像,并使用 MLF 网络为下一个训练阶段生成更具挑战性的训练三元组。

该数据增强方案的结构示意图如下所示:

下图为自学式数据增强算法生成的三元组(前景、背景和目标)图像,可以看出,该算法可以生成近乎完美的高质量目标图像。

实验

研究者通过定量和定性评估来评估该深层图像合成方法,并进行了用户研究,以评估用户对合成结果的感知质量偏好。最后,该研究还进行了一些控制变量实验。实验所用数据集:DUTS、MSRA-10K 和 Portrait 分割数据集。该研究在这些数据集上训练了分割和细化网络。在实现细节上,细分和优化模块通过 ADAM 算法进行了优化,学习速率为 2×10^−3,批处理大小是 8。所有用于细分和优化模块的训练样本均调整为 256×256。

该论文提出的方法与传统基于混合的合成方法(如拉普拉斯金字塔混合法)进行了比较。该研究还使用了 SOTA 抠图方法评估基于抠图的图像合成方法。此外,该研究还比较了一种称为复制粘贴(copypaste)的基线方法,该方法将从细化分割模块估计的细化分割蒙版用于该合成的软 alpha 蒙版。

为了公平比较,所有被比较的方法都使用与该方法相同的细化蒙版。对于羽化(feathering)方法,研究者采用σ=2 的高斯模糊来软化蒙版。对于拉普拉斯金字塔混合方法,该研究使用 OpenCV 实现。由于基于抠图的方法需要三元图(trimap),因此研究者对细化模板进行了二值化处理,然后通过将宽度为 16 的窄边界带标记为未知边界来生成伪三元图。

样本三元图以及各种方法的生成效果如下图 7 所示。需要注意的是,在基于抠图的合成方法中采用了自动消色算法,以提高其合成质量。

如下表 1 所示,该研究根据合成数据评估的定量结果证明了该方法的有效性。注意:定量结果仅在未知区域上计算得到。

此外,与其他方法对比的用户研究结果如下表 2 所示:

控制变量实验

研究者进行了 3 次控制变量实验,在 SynTest 上的定量结果如下表 3 所示。其中 w/o-DataAug 代表没有使用该方法的数据扩展而训练的的网络,Single-Enc 代表一个具有单流编码器的网络,w/o-RefNet 代表没有分割细化的网络的基线。该评估结果是仅在未知区域上得到的。

真实图像上控制变量实验的结果可参见下图 8:

END

备注:抠图

图像抠图合成交流群

关注图像分割、抠图合成等技术,扫码私信备注拉你入群。

我爱计算机视觉

微信号 : aicvml

QQ群:805388940

微博/知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Adobe Premiere是一款专业的视频编辑软件,为广大视频制作人员提供了强大的工具和功能。以下是对Adobe Premiere用户需求的分析。 1. 视频编辑功能:作为一款专业的视频编辑软件,用户需求主要集中在视频编辑功能方面。用户希望能够通过Adobe Premiere进行视频剪辑、裁剪、合并、分割、调色等操作,以实现对视频素材的全面管理和优化。 2. 多格式支持:用户通常需要同时处理和编辑来自各种不同设备和来源的视频素材。因此,Adobe Premiere需要支持多种常见的视频格式,如MP4、MOV、AVI等,以满足用户对于素材格式的需求。 3. 高效的剪辑工作流程:用户在剪辑视频时希望能够高效地完成工作。Adobe Premiere应该提供直观的用户界面,以便用户可以方便地导入、管理和操作素材。此外,软件应该提供快捷键和自动化工具,以加速剪辑过程。 4. 专业级特效和过渡:用户希望能够通过Adobe Premiere添加各种专业级的特效和过渡效果,以提升视频质量和创意。这些特效和过渡应该能够轻松应用和修改,并且能够与其他Adobe软件无缝集成,以满足用户的创作需求。 5. 输出和分享:用户通常需要将编辑好的视频输出到各种不同的媒体和平台上。Adobe Premiere应该提供多种输出选项,如导出到电视、网络、移动设备等。此外,用户还希望能够方便地分享自己的作品到社交媒体等平台上。 综上所述,Adobe Premiere用户的需求主要集中在视频编辑功能、多格式支持、高效的剪辑工作流程、专业级特效和过渡以及输出和分享功能等方面。Adobe Premiere应该通过提供强大的工具和用户友好的界面,满足用户在视频制作过程中的各种需求。 ### 回答2: Adobe Premiere是一款专业视频编辑软件,用户需求分析对软件的改进和功能开发非常重要。首先,用户需要一个简洁易用的界面,以便快速上手和操作。用户希望能够通过直观的操作方式轻松完成视频剪辑、调整、修复和特效添加等任务。 其次,用户对视频剪辑功能的需求很高。他们希望能够快速、准确地将视频素材进行剪切和拼接,以精确地定位和调整剪辑点。此外,用户还希望能够方便地调整剪辑的顺序和时长,包括添加过渡效果、调整音频和视频的音量和速度等。 用户还对调色、色彩校正和修复视频质量的功能有需求。他们希望能够通过Adobe Premiere提供的调色工具,对视频的亮度、对比度、饱和度等进行调整,以达到想要的视觉效果。此外,用户希望软件能提供修复视频的工具,如去除噪音、稳定抖动的图像等。 另外,用户对特效和转场的需求也很高。他们希望能够通过软件提供的特效库,添加各种视觉效果和过渡效果,如模糊、放大、缩小、重叠等,以增强视频的视觉冲击力和流畅度。 用户还对音频处理和字幕添加功能有需求。他们希望能够通过Adobe Premiere提供的音频处理工具,对音频进行剪辑、混音和降噪处理,以提高音频的质量。同时,用户希望能够方便地添加字幕,并能灵活地对字幕进行编辑和调整。 综上所述,Adobe Premiere的用户需求主要包括简洁易用的界面、视频剪辑功能、调色和修复视频质量的功能、特效和转场效果的添加、音频处理和字幕添加功能等。通过满足用户的这些需求,可以提升用户的编辑体验,使他们能够更高效、便捷地完成各种视频编辑任务。 ### 回答3: Adobe Premiere是一款专业视频编辑软件,用户需求分析对于其功能和特性的理解至关重要。 首先,用户需求分析主要包括功能要求和用户体验要求。在功能方面,Adobe Premiere用户需要具备强大的视频剪辑和编辑功能,包括视频素材导入、剪辑、裁剪、合并、添加转场、调整音频、添加字幕等。用户还希望软件支持多种视频格式,如MP4、MOV、AVI等,并且能够高效地处理和导出这些格式的视频文件。 此外,用户还希望Adobe Premiere具备一定的专业特性,比如支持多个视频轨道和音频轨道,方便用户进行复杂的剪辑和混音操作。用户还需要高级的特效和过渡效果,如颜色校正、滤镜、图文叠加等,以提升视频的质量和创意性。 在用户体验方面,用户需求分析需要考虑到软件的易用性和稳定性。用户希望Adobe Premiere能够提供直观的操作界面和简洁的工具栏,减少学习成本,提高工作效率。同时,软件需要具备良好的稳定性,避免出现崩溃和卡顿等问题,以保证用户的工作流程不受干扰。 此外,用户还期望Adobe Premiere能够与其他Adobe产品和第三方软件进行良好的兼容性,如Adobe After Effects、Adobe Photoshop等,以方便用户进行多软件间的文件共享和工作协作。 综上所述,Adobe Premiere用户需求分析包括功能和用户体验要求。功能方面,用户需要强大的剪辑和编辑功能,支持多种视频格式和专业特性。用户体验方面,用户希望软件易用、稳定,并与其他软件兼容。通过深入了解用户需求,Adobe Premiere可以进一步改进和完善,提供更好的用户体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值