报告主题:无需矢量量化的自回归图像生成方法
报告日期:7月25日(下周四)10:30-11:30
报告要点:
传统观点认为,自回归的图像生成模型(AR)通常需要在离散的语义符上进行操作。我们观察到,虽然离散空间可以方便地表示语义符的概率分布,但它并不是自回归建模的必要条件。在这篇工作中,我们提出使用扩散过程来模拟每个语义符的概率分布,这使我们能够在连续空间中应用自回归模型。我们没有使用传统的离散交叉熵损失函数,而是定义了一个扩散损失函数来模拟每个标记的概率分布。这种方法消除了自回归模型对离散语义符的依赖。
我们广泛地评估了该方法在不同自回归图像生成模型下的表现,包括标准的自回归模型和广义的掩码自回归(MAR)模型。通过去除离散的语义符,我们的方法不仅能保持自回归生成的速度优势,也拥有强大的生成能力。我们希望这项工作可以让自回归生成摆脱离散化的桎梏,并激励自回归生成在其他连续值数据和任务中的应用。
报告嘉宾:
黎天鸿是MIT EECS的PhD学生,师从Prof. Dina Katabi,并将在今年8月加入Prof. Kaiming He的课题组继续博士后研究。他近期的研究兴趣集中在以视觉为中心的生成模型和表征学习。长期来说,他致力于构建一个统一的通用视觉基础模型,以超越人类的感知和智慧理解世界。他在CVPR、ICCV、ECCV、ICLR、SIGCOMM等顶级会议上发表了多篇文章,并在2023年获得了Mathworks奖学金。此前,他在清华大学姚班获得了计算机科学学士学位。
扫码报名
近期热门报告