点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
本次分享我们邀请到了华中科技大学博士生姚劲枫,为大家详细介绍他CVPR 2025中稿的工作。如果您有相关工作需要分享,欢迎文末联系我们。

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models
论文:https://arxiv.org/pdf/2501.01423
代码:https://github.com/hustvl/LightningDiT
直播信息
时间
2025年3月18日(周二)19:00
主题
CVPR2025满分论文!重建vs生成:解决扩散模型中的优化难题
直播平台
3D视觉工坊哔哩哔哩
扫码观看直播,或前往B站搜索3D视觉工坊观看直播

3D视觉工坊视频号也将同步直播
主讲嘉宾

姚劲枫
华中科技大学二年级博士生,导师王兴刚教授,研究方向为视觉生成模型,表征学习和图像抠图等。以第一作者在NeurIPS、CVPR、Information Fusion等顶级会议或期刊上发表论文4篇。相关工作Github获赞累计超过1.5k。其中,对应工作ViTMatte作为抠图标准方法被集成进huggingface transformers里,模型月平均被下载次数约150万次。相关工作VA-VAE和LightningDiT聚焦于重建与生成的优化困境,最终以满分的成绩被CVPR 2025收录。曾获得国家奖学金、中国大学生“互联网+”创新创业大赛国赛金奖等。
GitHub主页:https://github.com/JingfengYao
直播大纲
本文提出了一种名为VA-VAE的方法,通过将视觉词元分析器的潜在空间与预训练的视觉基础模型对齐,解决了潜在扩散模型中重建与生成之间的优化难题。基于该方法构建的LightningDiT模型在ImageNet 256x256生成任务上取得了最佳性能,FID得分1.35,并在64个epoch内达到2.11的FID得分,显著提升了训练效率。
潜在扩散模型中重建与生成的优化困境
视觉基础模型约束的图像自编码器
Diffusion Transformers的收敛与加速
参与方式

注:本次分享我们邀请到了华中科技大学博士生姚劲枫,为大家详细介绍他CVPR2025中稿的工作。如果您有相关工作需要分享,欢迎联系:cv3d008。