视觉信息学习与分析—研讨课

这些概念是计算机视觉和机器学习中重要的研究方向,它们有着广泛的应用,例如自动驾驶、安防监控、虚拟现实等领域。小组文献阅读方向。

  1. 文本检测(Text Detection):识别图像中的文本内容,通常包括文本定位和文本识别两个步骤。
  2. 目标跟踪(Object Tracking):跟踪视频中的目标对象,通常包括目标检测目标状态预测两个步骤。
  3. 面部识别(Face Recognition):识别和验证图像中的人脸,通常包括人脸检测、人脸特征提取和人脸比对三个步骤。
  4. 跨模态检索(Cross-Modal Retrieval):从一种模态的数据集中检索另一种模态的数据,例如从文本检索图像或从图像检索文本。
  5. 图像标注(Image Tagging)为图像添加标签或描述,通常包括图像分类、物体检测和语义分割等步骤。
  6. 视觉显著性检测 (Visual Saliency Detection) :指在图像或视频中识别出最吸引注意力的区域,即那些视觉上显著或突出的部分。这种技术通常用于图像处理、计算机视觉和人工智能领域,目的是模拟人类视觉系统对视觉信息的优先处理方式。
  7. 场景识别(Scene Recognition):识别图像中的场景类别,例如室内、室外、公园等。
  8. 生成对抗网络(Generative Adversarial Network, GAN):一种深度学习模型,包括生成器和判别器两个部分,用于生成逼真的图像或视频。
  9. 图像描述(Image Captioning):为图像生成自然语言描述,通常包括图像特征提取、视觉编码、语言模型和解码等步骤。

第八组 主题:生成对抗网络

第二篇文献名:基于统一生成对抗网络的可控的图像到图像的转换

文献名解释,提出了一个生成对抗网络,可以用于所有可控结构,让图像(源域)到由可控结构引导的图像(目标域)的转换。

创新点:第一个使用GAN框架用于所有可控结构引导的图像转换任务。

可控结构指的是类标签、对象关键点、人体骨架和场景语义图。

文章主要内容:

  • 生成对抗网络模型由单个生成器和判别器组成,以原图像(提供外观信息)和目标可控结构(提供结构信息)作为输入。
  • 模型通过三种新颖的损失学习图像到图像的映射,即颜色损失、可控结构引导的循环一致性损失、可控结构引导的自内容损失。
  • 提出FRD来评价生成图像的质量

实验:

在两个具有挑战性的任务上实验:手势到手势的转换、跨视图图像转换

引言:

生成对抗网络用于图像生成,现存图像转换(生成)对于多域图像转换是低效的,例如n个不同图像域,不同的训练方法需要训练不同个生成器和判别器(需要训练很多个模型)。对于图像生成任务域是任意大的,比如手势生成和人物图像生成,可以有任何的姿势、大小、外观、位置和自我遮挡。解决这些限制,可用基于可控结构的图像生成任务(条件图像生成),如对象关键点引导(面部表情合成)、人体骨骼引导(生成不同的手势图像)、场景语义引导(可以在两个不同的视图上生成图像)。局限性,泛化能力差。本文提出统一的可控结构图像生成,即可控结构可以是任意的。

研究现状

  • 生成对抗网络:无监督学习方法,基于博弈论的生成模型,它的成功在于对抗损失,允许模型生成与真实图像无法区分的图像,这也是许多任务优化的目标。本文主要关注图像生成。
  • 现有方法用于:图像—图像生成、文本—图像生成、音频—图像生成、草图生成
  • 图像—图像生成:图像从源域到目标域的转换,使用输入输出数据来学习两者之间的参数映射(转换函数),并使用图像对训练。使用循环一致性损失来学习,可以解决收集大量图像对的价格昂贵的问题。
  • 用可控结构进行图像到图像的生成:解决多图像域需要训练许多生成器和判别器的问题。可控结构提供信息(类别、比例、方向、位置)来指导图像生成。其泛化能力有限,都是特定可控结构图像生成,通用的可控图像生成研究有限。本文解决这一问题。

模型介绍:统一生成对抗网络细节

  • 可控结构引导的生成器、考虑可控结构的判别器、端到端的方式训练
  • 可控结构引导的生成器:如手势生成图像/跨视图图像生成/面部表情生成,源域和目标域有较大的变形,这些任务被视为无限映射问题,可控结构(本模型其是类标签、对象关键点、人体骨架或语义图等)解决这一问题。本模型使用从其他大规模数据集预训练的深度学习模型来生成可控结构。描述生成图像过程为,可控结构提供更强的监督和结构信息来指导图像生成,原图像提供了外观信息来产生最终结果。可控结构和原图像输入到生成器中,合成目标图像。
  • 可控结构引导循环:目前的可控结构图像生成,只考虑源域到目标域。本文同时考虑图像生成过程和图像重建工程,即从源域(原始图像)到目标域(生成图像),再从目标域到源域。使用单个生成器两次,图像生成和图像重建是同时的,建立了完整的周期。
  • 可控结构引导循环—一致性损失:目的是优化周期。因为在目标域中没有对应于源域输入数据的相应数据,因此引入循环一致性损失保证了源图像和重建图像之间的一致性。
  • 可控结构引导的判别器:生成器被训练生成的图像无法通过对抗训练的判别器与真实图像区分开,判别器被训练的尽可能好,以检测由生成器生成器生成的“假"图像。生成器试图最小化目标函数,判别器试图最大化它。生成器学习了两个映射,分别定义两个映射的对抗性损失,最终对抗损失是这种可控结构引导的输入使判别器捕获局部感知信息。
  • 优化目标:
  1. 颜色损失(图像生成不能保留输入图像的整体颜色,传统的生成模型将图像转换为另一个图像导致"通道污染",解决这一限制引入颜色损失分别对rgb三个通道进行单独处理最后组合生成最终图像,可以提高图像质量)
  2. 可控结构引导下的自内容损失(保持输入和输出图像内容信息所提出自内容损失,本文加入可控结构引导下的自内容损失,目标是最小化真实图像和自内容保存图像之间的差值)
  3. 感知损失(高级特征空间中测量感知相似性,用于风格迁移和图像生成)
  4. 总变差损失(一般情况下生成的图像会有伪影,总变差解决这个问题)
  5. 总优化损失(上述损失的加权和,生成器和判别器以端到端方式训练,以优化这个函数)
  • 实现细节
  1. 网络架构:采用已有的生成器架构和判别器架构
  2. 优化细节:为了更好的效果,采用训练双判别器。采用已有的训练方法精细化细节
  • FRD评价图像质量:此为本文提出的。是一种量化合成质量的替代方法。

实验(通用性)

  • 手势到手势的转换:数据集两个,与最先进的方法比较(评价基于定性和定量)、用户研究、FRD指标
  • 交叉视图图像转换:数据集两个,与最先进的方法比较(评价基于定性和定量)、用户研究、FRD指标
  • 消融研究:指的是在深度学习模型的隐藏层或特征提取器中,通过计算样本之间的相似度来评估它们在概念或抽象层次上的相似性。这种感知相似性可以用于理解模型如何将输入映射到高维特征表示,以及这些表示如何体现输入间的相关性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值