CVPR 2025 满分论文!重建 vs 生成:解决扩散模型中的优化难题

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

本次分享我们邀请到了华中科技大学博士生姚劲枫,为大家详细介绍他CVPR 2025中稿的工作。如果您有相关工作需要分享,欢迎文末联系我们。

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models
论文https://arxiv.org/pdf/2501.01423
代码https://github.com/hustvl/LightningDiT

直播信息

时间

2025年3月18日(周二)19:00

主题

CVPR2025满分论文!重建vs生成:解决扩散模型中的优化难题

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播,或前往B站搜索3D视觉工坊观看直播

3D视觉工坊视频号也将同步直播

主讲嘉宾

姚劲枫

华中科技大学二年级博士生,导师王兴刚教授,研究方向为视觉生成模型,表征学习和图像抠图等。以第一作者在NeurIPS、CVPR、Information Fusion等顶级会议或期刊上发表论文4篇。相关工作Github获赞累计超过1.5k。其中,对应工作ViTMatte作为抠图标准方法被集成进huggingface transformers里,模型月平均被下载次数约150万次。相关工作VA-VAE和LightningDiT聚焦于重建与生成的优化困境,最终以满分的成绩被CVPR 2025收录。曾获得国家奖学金、中国大学生“互联网+”创新创业大赛国赛金奖等。

GitHub主页https://github.com/JingfengYao

直播大纲

本文提出了一种名为VA-VAE的方法,通过将视觉词元分析器的潜在空间与预训练的视觉基础模型对齐,解决了潜在扩散模型中重建与生成之间的优化难题。基于该方法构建的LightningDiT模型在ImageNet 256x256生成任务上取得了最佳性能,FID得分1.35,并在64个epoch内达到2.11的FID得分,显著提升了训练效率。

  1. 潜在扩散模型中重建与生成的优化困境

  2. 视觉基础模型约束的图像自编码器

  3. Diffusion Transformers的收敛与加速

参与方式

:本次分享我们邀请到了华中科技大学博士生姚劲枫,为大家详细介绍他CVPR2025中稿的工作。如果您有相关工作需要分享,欢迎联系:cv3d008。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值