044_SSS_Counting Guidance for High Fidelity Text-to-Image Synthesis

Artificial Idiots

已于 2023-07-20 08:53:43 修改

阅读量315

点赞数

分类专栏：文章阅读笔记文章标签：计算机视觉机器学习深度学习

于 2023-07-11 10:30:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/D_Trump/article/details/131654680

版权

文章阅读笔记专栏收录该内容

37 篇文章 14 订阅

订阅专栏

Counting Guidance for High Fidelity Text-to-Image Synthesis

在这里插入图片描述

1. Motivations & Arguments & Contributions

Motivations & Arguments

现有的Stable Diffusion在文本生成图像时不能准确的生成指定数量的物体。

在这里插入图片描述

Contributions

本文提出了一种可以生成准确数量物体的guidance方法，和现有的stable Diffusion相结合。同时本文提出了一种新的attention map guidance。

2. Methodology

本文对于单种物体和多种物体的情形区别处理。

单种物体

首先是单种物体的情况，这种情况相对容易一些，也就是利用已有的Count网络得到每一步得到的图像的物体个数，之后通过Count损失对每一步采样的方向进行修正。

在这里插入图片描述

在这里插入图片描述

多种物体

多种物体的情况下，由于采样过程前几步的图像不够清晰，因此直接用类别敏感的Count网络效果不好，因此本文提出了一种基于mask attention map的方法，利用attention map区别每一类物体。之后对于同一类的物体，在attention map中mask掉其他物体，再进行Count网络计数。

但是现有的stable diffusion的attention map会混淆部分物体，如图所示，橘子和鸡蛋的图像，有一部分橘子和鸡蛋的attention map就被混淆了。

在这里插入图片描述

于是要计数首先要区分不同类别的物体。
首先得到每一类物体的attention map，然后进行归一化

在这里插入图片描述

为了约束每个像素只表示一个物体，对其最小值累加作为损失:

在这里插入图片描述

为了保证每个像素至少表示一个物体，对其最大值累加作为损失：

在这里插入图片描述

最小值损失和最大值损失线性组合，就是本文用的attention loss：

在这里插入图片描述

接下来是对attention map进行mask来区分物体，mask操作就相对的容易一些：

在这里插入图片描述

最后就是对于每个物体，利用mask之后的attention map进行Count操作。

总体的流程如图所示。

在这里插入图片描述

3. Experiments

在这里插入图片描述

4. Limitations

对于不同的文本需要有不同的scale parameter。
图像的总体结构在最初几步就确定了，有些时候会影响效果。

Artificial Idiots

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Artificial Idiots CSDN认证博客专家 CSDN认证企业博客

码龄6年

60: 原创

9万+: 周排名

208万+: 总排名

5万+: 访问

: 等级

773: 积分

89: 粉丝

90: 获赞

14: 评论

210: 收藏

私信

关注

热门文章

分类专栏

最新评论

李沐《动手学深度学习》学习笔记（1）Google Colab下的环境配置
weixin_45522297: 为什么我按照上面的三个步骤安装，就是用不了mxnet呢？每次提醒OSError: libcudnn.so.7: cannot open shared object file: No such file or directory
李沐《动手学深度学习》学习笔记（1）Google Colab下的环境配置
weixin_41532377: 但是我这样操作后，每次还是需要重新安装。
003_SSS_ Tackling the Generative Learning Trilemma with Denoising Diffusion GANs
niko^__^: 您好！最近我也在研究DDGANs的论文，我有一个疑惑期望跟您探讨一下 1,DDPM假设去噪分布为高斯分布，而随机微分方程理论证明这样的假设只在降噪步长趋于 0 的时候成立，因此扩散模型需要大量重复的降噪步数来保证小的降噪步长，所以生成速度慢。 2,DDGANs则是抛弃去噪分布为高斯的假设，使用一个条件GAN来模拟这个降噪分布。 3,那么DDPM的加速模型（实际上只是修改了采样算法）比如DDIM也是有一个数据分布，去噪时是一个非马尔可夫链，那么用DDGANs里的条件GAN是否能拟合DDIM的去噪分布呢，这样是否会进一步提升生成速度呢我一直想不明白，希望跟您探讨一下
李沐《动手学深度学习》学习笔记（6）第一章预备知识第四节微分
WS_Change: 请问博主，这个f'h={h:.5f}是什么意思
005_SS_ Palette Image-to-Image Diffusion Models
道尔先生: 最后这个金色字体看瞎我眼

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。