即插即用，无痛增强模型生成美感！字节跳动提出VMix:细粒度美学控制，光影、色彩全搞定

最新推荐文章于 2025-01-14 21:51:53 发布

AI生成未来

最新推荐文章于 2025-01-14 21:51:53 发布

阅读量984

点赞数 15

分类专栏：图像生成文章标签：图像生成扩散模型增强模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AIGCer/article/details/144936847

版权

文章链接：https://arxiv.org/pdf/2412.20800
代码地址：https://github.com/fenfenfenfan/VMix
项目地址：https://vmix-diffusion.github.io/VMix/

亮点直击

分析并探索现有模型在光影、色彩等细粒度美学维度上生成图像的差异，提出在文本提示中解耦这些属性，并构建一个细粒度的美学标签体系，提供清晰的模型优化方向；

提出VMix条件注入方法，它将输入文本提示解耦为内容描述和美学描述，通过值混合交叉注意力的条件控制方法，从不同维度提升模型生成的美感；

提出的方法对于现有的扩散模型具有普适效果，作者基于此训练了一个即插即用的美学适配器，与社区模块高度兼容。

实验表明，提出的方法能显著提升现有模型生成美感，优于FreeU、DPO、Textual Inversion等方法

总结速览

解决的问题：

扩散模型在文本到图像生成方面表现出色，现有方法在提升图像质量以满足人类偏好方面做出了努力，但未能充分满足人类对视觉生成内容的细粒度审美偏好，如自然光线、丰富色彩和合理构图等；
现有方法在提升图像质量以满足人类偏好方面做出了努力，如FreeU、DPO等，尽管整体生成结果可能在文本对齐方面表现更好，但可能在视觉构图等方面表现较差，现有方法未能准确对齐生成图像与人类偏好。

提出的方案：

通过对齐人类设计师偏好，构建包括光影、色彩、构图等不同美学标签，将文本条件解耦成内容描述和美学描述；
提出新的条件注入方法VMix，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。