上手AIGC必读经典算法——深入CGAN模型

CGAN-论文阅读笔记

论文地址:Conditional Generative Adversarial Nets-ReadPaper论文阅读平台

论文结构

  1. Introduction
  2. Related work
    2.1 Multi-modal Learning For Image
    Labelling
  3. Conditional Adversarial Nets
    3.1 Generative Adversarial Nets
    3.2 Conditional Adversarial Nets
  4. Experimental Results
    4.1 Unimodal
    4.2 Multimodal
    5 Future Work

摘要

原文

Generative Adversarial Nets [8] were recently introduced as a novel way to train generative models. In this work we introduce the conditional version of generative adversarial nets, which can be constructed by simply feeding the data, y, we wish to condition on to both the generator and discriminator. We show that this model can generate MNIST digits conditioned on class labels. We also illustrate how this model could be used to learn a multi-modal model, and provide preliminary examples of an application to image tagging in which we demonstrate how this approach can generate descriptive tags which are not part of training labels.

摘要核心

  1. 提出了一个基于生成对抗网络的条件生成式模型
  2. 在原模型基础上,会输入额外的数据作为条件
  3. 在原模型基础上,对生成器和判别器都进行了修改
  4. 在MNIST数据集上,新模型可以生成以数字类别标签为条件的手写数字图像
  5. 新模型还可以用来做多模态学习,可以生成输入图像相关的描述标签

研究背景

GAN


由生成器和判别器组成

生成器和判别器由多层感知机实现

训练中同时优化生成器和判别器


不需要马尔可夫链

仅使用反向传播来获得梯度

在学习期间不需要推理

多模态学习


每一种信息的来源或者形式,都可以称为一种模态

多模态机器学习,旨在通过机器学习的方法实现处理和理解多源模态信息的能力

目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习

图像标记

用词语对图像中不同内容进行多维度表述
图像描述

把一幅图片翻译为一段描述文字

获取图像的标记词语

理解图像标记之间的关系

生成人类可读的句子

词向量模型


Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型

通过词的上下文得到词的向量化表示,并使得语义上相似的单词在向量空间内距离也很近

来源于2013年的论文《Efficient Estimation of Word Representation in Vector Space》,有两种方法:CBOW(通过附近词预测中心词)、Skip-gram(通过中心词预测附近的词)

研究意义

Research Meaning

CGAN历史意义

提出了一个可用的条件GAN网络结构

开启了GAN在多模态学习中的应用

模型总览

img

  • 在生成器和判别器分别加入相同的条件输入y
  • CGAN的网络相对于原始GAN网络并没有变化
  • CGAN可以作为一种通用策略嵌入到其它的GAN网络中

价值函数

image-20220930091840674

D:
判别器
G:
生成器
原文讲解
z:
随机噪声
data: 训练数据
y:
条件输入

数据集

MNIST

手写数字集,源自NIST;28*28的灰度图,训练集60000张,测试集10000张
http://yann.lecun.com/exdb/mnist/
MIRFLICKR-25000

源自雅虎Flickr网站的影像数据库,25000张图像,图像拥有多个描述tag
http://press.liacs.nl/mirflickr/mirdownload.html
YFCC 100M

源自雅虎Flickr网站的影像数据库,由1亿条产生于2004年至2014年间的多条媒体数据组成,包含了9920万的照片数据以及80万条视频数据,数据包括相应tag

单模态任务


采用随机梯度下降,batch size为100

初始学习率为0.1,指数衰减到1e-6,衰减系数为1.00004

使用初始值为0.5的初始动量,并逐渐增加到0.7

在生成器和判别器上都使用概率为0.5的Dropout

使用验证集上的最大对数似然估计作为停止点

多模态任务


从像Flickr这样的照片网站,可以获得丰富的带用户标记的图像数据

用户生成的元数据(UGM),比较接近人类用自然语言描述图像的方式

不同的用户会使用不同词汇来描述相同的概念

在ImageNet上训练一个类似AlexNet的图像分类模型,使用其最后一个全连接层的输出来提取图像特征

使用YFCC100M数据集,训练一个词向量长度为200的 skip-gram模型

image-20220930092030059


超参数和架构是结合使用交叉验证、随机网格搜索和手工选择来确定的

采用随机梯度下降,batch size为100

初始学习率为0.1,指数衰减至1e-6,衰减系数为1.00004

使用初始值为0.5的初始动量,并逐渐增加到0.7

在生成器和判别器上都使用概率为0.5的Dropout

论文总结


本文中显示的结果非常初步

展示了条件对抗网的潜力

展示了有趣并且有用的应用范围前景

提供更复杂的模型,对其性能和特征的更详细和彻底的分析

在多模态任务中,同时使用多个标签


使用初始值为0.5的初始动量,并逐渐增加到0.7

在生成器和判别器上都使用概率为0.5的Dropout

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Yuetianw

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值