直播｜何恺明组 & MIT 热门开源工作，打破自回归图像生成瓶颈

智源社区

于 2024-07-17 12:30:34 发布

阅读量429

点赞数 3

文章标签：回归数据挖掘人工智能机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/140510900

版权

报告主题：无需矢量量化的自回归图像生成方法

报告日期：7月25日（下周四）10:30-11:30

报告要点：

传统观点认为，自回归的图像生成模型（AR）通常需要在离散的语义符上进行操作。我们观察到，虽然离散空间可以方便地表示语义符的概率分布，但它并不是自回归建模的必要条件。在这篇工作中，我们提出使用扩散过程来模拟每个语义符的概率分布，这使我们能够在连续空间中应用自回归模型。我们没有使用传统的离散交叉熵损失函数，而是定义了一个扩散损失函数来模拟每个标记的概率分布。这种方法消除了自回归模型对离散语义符的依赖。

我们广泛地评估了该方法在不同自回归图像生成模型下的表现，包括标准的自回归模型和广义的掩码自回归（MAR）模型。通过去除离散的语义符，我们的方法不仅能保持自回归生成的速度优势，也拥有强大的生成能力。我们希望这项工作可以让自回归生成摆脱离散化的桎梏，并激励自回归生成在其他连续值数据和任务中的应用。

报告嘉宾：

黎天鸿是MIT EECS的PhD学生，师从Prof. Dina Katabi，并将在今年8月加入Prof. Kaiming He的课题组继续博士后研究。他近期的研究兴趣集中在以视觉为中心的生成模型和表征学习。长期来说，他致力于构建一个统一的通用视觉基础模型，以超越人类的感知和智慧理解世界。他在CVPR、ICCV、ECCV、ICLR、SIGCOMM等顶级会议上发表了多篇文章，并在2023年获得了Mathworks奖学金。此前，他在清华大学姚班获得了计算机科学学士学位。

扫码报名

近期热门报告

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。