多模态—文字生成图片

DALL-E是一个用于文字生成图片的模型,这也是一个很好思路的模型。该模型的训练分为两个阶段:

第一阶段:图片经过编码器编码为图片向量,当然我们应该注意这个过程存在无损压缩(图片假设200*200,如果用one-hot表示,我们还需要考虑通道,色彩表示,则其维度要达到200*200*(256^3),可以想象这个维度多高,经过编码器进行压缩编码,在进行解码器进行解码获取图片,不断训练,知道其误差极小,训练出一个较好的编码器和解码器。其损失函数是要考虑编码前图片和解码后图片的误差

第二阶段:文字通过GPT进行预测,不断训练使文字能够预测图片编码。

636e4f39344d4410b887b2e2f652714f.png

 实现过程:文字进行GPT获取图片编码,图片编码经过解码器来获取图片,以实现文字生成图片。

5c7215469c96487098b705b9fa73b3d0.png

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值