深度学习系列40:cogview生成模型

1. 模型介绍

开源地址见:https://github.com/THUDM/CogView
demo地址:https://agc.platform.baai.ac.cn/CogView/index.html
特点:基于中文
效果展示如下。在生成人像时,四肢细节有时会有些问题。
在这里插入图片描述

2. 快速上手

在gpu机器上拉取镜像:

docker pull cogview/cuda111_torch181_deepspeed040
./env/start_docker.sh && docker exec -it bg-cogview bash

cd /root/cogview # in the container

在pretrained/vqvae目录下,下载图像tokenizer:vqvae_hard_biggerset_011.pt:

wget https://cloud.tsinghua.edu.cn/f/71607a5dca69417baa8c/?dl=1 -O pretrained/vqvae/vqvae_hard_biggerset_011.pt

在pretrained/cogview/下,从https://resource.wudaoai.cn/home?ind=2&name=WuDao%20WenHui&id=1399364355975327744下载cogview模型并解压:
在这里插入图片描述
接下来就可以运行啦:

  • 文本生成图像:在input.txt中输入文字,然后执行
    ./scripts/text2image.sh --debug
    结果在samples_text2image/目录下

  • 超分
    对上面生成的图片{image_path}执行:
    ./scripts/super_resolution.sh text\t{image_path}

  • 图像转文本
    ./scripts/image2text.sh imagepath

3. 模型介绍

模型如下:
在这里插入图片描述
cogview的思想和dalle近似,将文本token和图像token输入transformer

  • 文本token使用的是SentencePiece,token size为50000。
  • 图像token使用的是VQVAE, ∣ V ∣ = 8192 , d = 256 , H = W = 256 , h = w = 32 ∣ V ∣ = 8192 , d = 256 , H= W = 256 , h = w = 32 V=8192,d=256,H=W=256,h=w=32,需要提前学习编码器和解码器参数。
  • 将文本和图像tokens进行拼接,四个Seperator字符,[ROI1](reference text of image),[ B A S E ] [BASE],[BOI1](beginning of image),[EOI1](end of image)被添加到每个序列中以指示文字和图像的边界。所有序列裁剪或补全到1088的长度的sequence上。
  • 主网络使用单向Transformer(GPT)。Transformer有48层,隐藏的大小为2560,40个注意力头和40亿个参数。损失函数为交叉熵损失。
  • 每个batch包含6144个sequence,在512台V100机器上训练144000步。
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
深度学习生成模型VAE(Variational Autoencoder)是一种基于神经网络的生成模型。VAE在产生新数据的时候是基于已有数据来做的,通过学习数据的潜在空间表示,然后从该空间中采样生成新的数据样本。VAE模型结合了自编码器和变分推断的思想,通过最大化样本的下界来优化模型参数,使得生成的样本能够更好地拟合原始数据分布。 与传统的自编码器相比,VAE在编码器部分引入了一个均值向量和方差向量,这样可以使得编码后的潜在表示服从一个高斯分布。这种设计使得VAE不仅能够学习到数据的低维表示,还能够通过在潜在空间中进行采样来生成新的样本。VAE模型的损失函数由重构误差项和正则化项组成,通过最小化该损失函数可以使得生成的样本能够尽可能地接近原始数据分布。 尽管VAE在生成新数据方面的效果相对于其他模型可能有些模糊,但它在学习数据分布和生成新数据方面仍然具有一定的优势。通过使用变分推断和重参数化技巧,VAE能够生成具有多样性的样本,并且能够在潜在空间中进行插值和操作,从而得到更多样化的结果。 总结来说,VAE是一种深度学习生成模型,通过学习数据的潜在空间表示,可以生成新的样本。它结合了自编码器和变分推断的思想,并通过最大化样本的下界来优化模型参数。尽管生成的样本可能有些模糊,但VAE在学习数据分布和生成多样化样本方面具有一定的优势。<span class="em">1</span><span class="em">2</span><span class="em">3</span><span class="em">4</span>

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值