即插即用,无痛增强模型生成美感!字节跳动提出VMix:细粒度美学控制,光影、色彩全搞定

文章链接:https://arxiv.org/pdf/2412.20800
代码地址:https://github.com/fenfenfenfan/VMix
项目地址:https://vmix-diffusion.github.io/VMix/

亮点直击

  • 分析并探索现有模型在光影、色彩等细粒度美学维度上生成图像的差异,提出在文本提示中解耦这些属性,并构建一个细粒度的美学标签体系,提供清晰的模型优化方向;

  • 提出VMix条件注入方法,它将输入文本提示解耦为内容描述和美学描述,通过值混合交叉注意力的条件控制方法,从不同维度提升模型生成的美感;

  • 提出的方法对于现有的扩散模型具有普适效果,作者基于此训练了一个即插即用的美学适配器,与社区模块高度兼容。

  • 实验表明,提出的方法能显著提升现有模型生成美感,优于FreeU、DPO、Textual Inversion等方法

总结速览

解决的问题

  • 扩散模型在文本到图像生成方面表现出色,现有方法在提升图像质量以满足人类偏好方面做出了努力,但未能充分满足人类对视觉生成内容的细粒度审美偏好,如自然光线、丰富色彩和合理构图等;

  • 现有方法在提升图像质量以满足人类偏好方面做出了努力,如FreeU、DPO等,尽管整体生成结果可能在文本对齐方面表现更好,但可能在视觉构图等方面表现较差,现有方法未能准确对齐生成图像与人类偏好。

提出的方案

  • 通过对齐人类设计师偏好,构建包括光影、色彩、构图等不同美学标签,将文本条件解耦成内容描述和美学描述;

  • 提出新的条件注入方法VMix,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值