直播|何恺明组 & MIT 热门开源工作,打破自回归图像生成瓶颈

386c132fd8a8401e8806ca8ffb687cf4.png

报告主题:无需矢量量化的自回归图像生成方法

报告日期:7月25日(下周四)10:30-11:30

fc78e75b9afb0540ee6dc06a6e8ec781.png

报告要点

传统观点认为,自回归的图像生成模型(AR)通常需要在离散的语义符上进行操作。我们观察到,虽然离散空间可以方便地表示语义符的概率分布,但它并不是自回归建模的必要条件。在这篇工作中,我们提出使用扩散过程来模拟每个语义符的概率分布,这使我们能够在连续空间中应用自回归模型。我们没有使用传统的离散交叉熵损失函数,而是定义了一个扩散损失函数来模拟每个标记的概率分布。这种方法消除了自回归模型对离散语义符的依赖。

我们广泛地评估了该方法在不同自回归图像生成模型下的表现,包括标准的自回归模型和广义的掩码自回归(MAR)模型。通过去除离散的语义符,我们的方法不仅能保持自回归生成的速度优势,也拥有强大的生成能力。我们希望这项工作可以让自回归生成摆脱离散化的桎梏,并激励自回归生成在其他连续值数据和任务中的应用。

报告嘉宾

黎天鸿是MIT EECS的PhD学生,师从Prof. Dina Katabi,并将在今年8月加入Prof. Kaiming He的课题组继续博士后研究。他近期的研究兴趣集中在以视觉为中心的生成模型和表征学习。长期来说,他致力于构建一个统一的通用视觉基础模型,以超越人类的感知和智慧理解世界。他在CVPR、ICCV、ECCV、ICLR、SIGCOMM等顶级会议上发表了多篇文章,并在2023年获得了Mathworks奖学金。此前,他在清华大学姚班获得了计算机科学学士学位。

b5613d72a1548326dff36e0ea5906f99.png

扫码报名


近期热门报告

e194520efd836ae5ec00997863261b98.jpeg

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值