深度学习系列40：cogview生成模型

最新推荐文章于 2024-07-18 13:08:24 发布

IE06

最新推荐文章于 2024-07-18 13:08:24 发布

阅读量2.1k

点赞数

分类专栏：深度学习系列文章标签：深度学习人工智能 transformer

本文链接：https://blog.csdn.net/kittyzc/article/details/125226753

版权

70 篇文章 156 订阅

订阅专栏

1. 模型介绍

开源地址见：https://github.com/THUDM/CogView
demo地址：https://agc.platform.baai.ac.cn/CogView/index.html
特点：基于中文
效果展示如下。在生成人像时，四肢细节有时会有些问题。
在这里插入图片描述

在gpu机器上拉取镜像：

docker pull cogview/cuda111_torch181_deepspeed040
./env/start_docker.sh && docker exec -it bg-cogview bash

cd /root/cogview # in the container

在pretrained/vqvae目录下，下载图像tokenizer：vqvae_hard_biggerset_011.pt：

wget https://cloud.tsinghua.edu.cn/f/71607a5dca69417baa8c/?dl=1 -O pretrained/vqvae/vqvae_hard_biggerset_011.pt

在pretrained/cogview/下，从https://resource.wudaoai.cn/home?ind=2&name=WuDao%20WenHui&id=1399364355975327744下载cogview模型并解压：
在这里插入图片描述
接下来就可以运行啦：

文本生成图像：在input.txt中输入文字，然后执行
./scripts/text2image.sh --debug
结果在samples_text2image/目录下
超分
对上面生成的图片{image_path}执行：
./scripts/super_resolution.sh text\t{image_path}
图像转文本
./scripts/image2text.sh imagepath

模型如下：
在这里插入图片描述
cogview的思想和dalle近似，将文本token和图像token输入transformer

文本token使用的是SentencePiece，token size为50000。
图像token使用的是VQVAE， $∣ V ∣ = 8192, d = 256, H = W = 256, h = w = 32$ ，需要提前学习编码器和解码器参数。
将文本和图像tokens进行拼接，四个Seperator字符，[ROI1]（reference text of image），[ B A S E ] [BASE]，[BOI1]（beginning of image），[EOI1]（end of image）被添加到每个序列中以指示文字和图像的边界。所有序列裁剪或补全到1088的长度的sequence上。
主网络使用单向Transformer（GPT）。Transformer有48层，隐藏的大小为2560，40个注意力头和40亿个参数。损失函数为交叉熵损失。
每个batch包含6144个sequence，在512台V100机器上训练144000步。

关注

专栏目录