AIGC学习

一、包含的内容

1. 技术层面

1.1 智能数字内容孪生:图像超分、语音转字幕、文字转语音等。

1.2 智能数字内容编辑:视频场景剪辑、虚拟试衣、人声分离等。

1.3 智能数字内容生成:图像生成(AI绘画)、文本生成(AI写作、ChatBot)、视频生成、多模态生成等。

2. 生成内容层面

2.1 文本生成:JasperAI、copy.AI、ChatGPT、Bard、AI dungeon等。

2.2 图像生成:EditGAN,Deepfake,DALL-E、MidJourney、Stable Diffusion,文心一格等。

2.3 音频生成:DeepMusic、WaveNet、Deep Voice、MusicAutoBot等。

2.4 视频生成:Deepfake,videoGPT,Gliacloud、Make-A-Video、Imagen video等。

2.5 多模态生成:DALL-E、MidJourney、Stable Diffusion等。

二、基础模型

1. VAE

2. GAN

3. Diffusion Model

包含两个过程:

3.1 正向扩散:

通过逐渐引入噪声来破坏图像,直到图像变成完全随机的噪声。

3.2 反向扩散:

使用一系列马尔可夫链逐步去除预测噪声,从高斯噪声中恢复数据。

去除噪声:从时间帧t向时间帧t-1的变换

1)输入t时刻的图像(有噪声)

2)用U-Net 预测总噪声量

3)t 的图像减去该噪声

4. DALL-E 2

How DALL-E 2 Actually Works

包含三个板块:CLIP、Prior、Img-decoder

4.1 Img-decoder

基于img embedding以及caption(text) embedding生成图像

1) diffusion model生成img:

2)为了生成高分辨率图像,训练了两个diffusion unsample model :一个是64*64 --> 256*256

(用高斯模糊),一个是进一步 --> 1024*1024(BSR退化)。在训练过程中稍微损坏图像来提高鲁棒性。

4.2 Prior

将text embedding转化为img embedding。有两种 Prior

4.2.1 AR prior

4.2.2 Diffusion prior

训练一个decoder-only的Transformer。通过casual attention mask按序操作:

  1. 标记化的文本/标题。
  2. 这些标记的 CLIP 文本编码。
  3. 扩散时间步长的编码。
  4. 带噪声的图像通过 CLIP 图像编码器。
  5. 最终编码,其来自 Transformer 的输出用于预测无噪声 CLIP 图像编码。

train的一些细节:

  • Classifier-Free Guidance
    • 为了提高样本质量,在 10% 的情况下使用无分类器指导随机进行采样,并删除文本调节信息。

                        Classifier-Guidance(事后修改):复用别人训练好的无条件扩散模型,用一个分类器来调整生成过程以控制生成。

                        Classifier-Free(事前训练):

                   

  • 双样本生成
    • 为了提高采样期间的质量,使用先验生成两个图像嵌入,并选择与文本嵌入具有较高点积的图像嵌入。目前还不清楚为什么作者在这里使用点积而不是余弦相似度。
  • 为什么我们需要先验?
    • 作者指出,对于字幕到图像模型来说,训练这样的先验并不是绝对必要的。一种选择是仅以标题本身为条件。这将简单地产生模型 GLIDE,作者在论文中对两者进行了彻底的分析比较。另一种选择是将 CLIP 文本嵌入输入解码器,而不是使用之前的内容生成 CLIP 图像嵌入,然后使用它。作者通过实验发现,前者产生了合理的结果,尽管结果不如后者。最终,使用先验提高了图像多样性

4.3 流程

  1. 首先,CLIP 文本编码器将图像描述映射到表示空间中。
  2. 然后扩散先验从CLIP文本编码映射到相应的CLIP图像编码
  3. 最后,修改后的 GLIDE 生成模型通过反向扩散从表示空间映射到图像空间,生成在输入标题中传达语义信息的许多可能图像之一。

5. Imagen

6. Stable Diffusion

基于Latent Diffusion Model,数据在像素空间(Pixel Space)、潜在空间(Latent Space)、条件(Conditioning)三部分之间流转:

  1. 图像编码器将图像从像素空间(Pixel Space)压缩到更小维度的潜在空间(Latent Space),捕捉图像更本质的信息;
  2. 对潜在空间中的图片添加噪声,进行扩散过程(Diffusion Process);
  3. 通过 CLIP 文本编码器将输入的描述语转换为去噪过程的条件(Conditioning)
  4. 基于一些条件对图像进行去噪(Denoising)以获得生成图片的潜在表示,去噪步骤可以灵活地以文本、图像和其他形式为条件(以文本为条件即 text2img、以图像为条件即 img2img);
  5. 图像解码器通过将图像从潜在空间转换回像素空间来生成最终图像。

 

7. ViT

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值