CVPR 2025 满分论文！重建 vs 生成：解决扩散模型中的优化难题

最新推荐文章于 2025-04-08 19:01:09 发布

3Ｄ视觉工坊

最新推荐文章于 2025-04-08 19:01:09 发布

阅读量185

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247723298&idx=1&sn=72bc93d49ac2e7ecd074ed8a2bbbe145&chksm=fa36243bbfe83d8be95fb69051262c4eb9975a0b3935867ac6045423cf26fb9418af73912e26&scene=126&sessionid=0

版权

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

本次分享我们邀请到了华中科技大学博士生姚劲枫，为大家详细介绍他CVPR 2025中稿的工作。如果您有相关工作需要分享，欢迎文末联系我们。

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models
论文：https://arxiv.org/pdf/2501.01423
代码：https://github.com/hustvl/LightningDiT

直播信息

时间

2025年3月18日(周二)19：00

主题

CVPR2025满分论文！重建vs生成：解决扩散模型中的优化难题

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播，或前往B站搜索3D视觉工坊观看直播

3D视觉工坊视频号也将同步直播

主讲嘉宾

姚劲枫

华中科技大学二年级博士生，导师王兴刚教授，研究方向为视觉生成模型，表征学习和图像抠图等。以第一作者在NeurIPS、CVPR、Information Fusion等顶级会议或期刊上发表论文4篇。相关工作Github获赞累计超过1.5k。其中，对应工作ViTMatte作为抠图标准方法被集成进huggingface transformers里，模型月平均被下载次数约150万次。相关工作VA-VAE和LightningDiT聚焦于重建与生成的优化困境，最终以满分的成绩被CVPR 2025收录。曾获得国家奖学金、中国大学生“互联网+”创新创业大赛国赛金奖等。

GitHub主页：https://github.com/JingfengYao

直播大纲

本文提出了一种名为VA-VAE的方法，通过将视觉词元分析器的潜在空间与预训练的视觉基础模型对齐，解决了潜在扩散模型中重建与生成之间的优化难题。基于该方法构建的LightningDiT模型在ImageNet 256x256生成任务上取得了最佳性能，FID得分1.35，并在64个epoch内达到2.11的FID得分，显著提升了训练效率。