可控生成之GLIGEN原理

GLIGEN通过引入定位条件(如BBOX、参考图片等)增强Stable Diffusion的控制能力,以实现更精细化的图像生成。模型采用门控Transformer层处理新输入,保留预训练知识并融合定位信息。实验显示,GLIGEN在控制图像生成和质量之间取得良好平衡,具有强大的泛化性。
摘要由CSDN通过智能技术生成

在这里插入图片描述
🤗关注公众号 funNLPer 快乐白嫖🤗

论文:GLIGEN: Open-Set Grounded Text-to-Image Generation
代码:gligen/GLIGEN
项目地址:GLIGEN
demo地址:gligen demo


简单来说GLIEN的出发点与我们之前介绍的 可控生成之ControlNet 类似,都是希望对SD等预训练生成大模型进行精准控制,从而让SD的生成结果更符合人们的期望。

1. 动机

尽管Stable Diffusion生成的图片已经足够让人惊艳,但是存在一个问题是SD只通过文本来控制图像的生成,这造成对模型生成的控制能力不够强大,因为很多图片我们无法详细准确的描述,尤其是图片中各个实体的方位、以及实体的细节等。基于这个问题出发GLIEN提出在模型的输入中增加定

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值