ECCV`24 | 高保真目标修复新SOTA!复旦&智象开源CAT-Diffusion,语义视觉双一致
解决的问题单一U-Net在所有去噪步骤中对齐文本提示和视觉对象不足以生成期望的对象。扩散模型的复杂采样空间中无法保证对对象生成的可控性。提出的方案语义预修复:在多模态特征空间中推理目标对象的语义特征。高保真度的对象生成:在扩散的潜在空间中基于已修复的语义特征生成目标对象。应用的技术采用级联的Transformer语义修复器与目标修复扩散模型,提出了新型的Cascaded Transformer-Diffusion(CAT-Diffusion)框架。
原创
2024-10-09 21:43:35 ·
673 阅读 ·
0 评论