点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
作者介绍
梁志烜
香港大学计算机系直博一年级学生,导师为罗平教授,研究兴趣是生成式机器学习,Embodied AI和Data-centric learning。
报告题目
作为自适应自进化规划器的扩散模型
内容简介
扩散模型已经在许多任务中展示了其作为生成模型的强大能力,进而具有作为离线强化学习范式的巨大潜力。然而,扩散模型的质量受到训练数据多样性不足的限制。这制约了扩散模型在规划任务上的性能,同时阻碍了其对新任务的泛化性。本文首次提出AdaptDiffuser,一种基于扩散模型的自进化规划方法,它可以自我进化以提升扩散模型的性能,从而使之成为更好的规划器,不仅适用于已见过的任务,而且还可以迁移到未见的任务。我们的方法AdaptDiffuser首先使用奖励(reward)的梯度作为指引,为目标条件任务生成丰富的综合专家数据。然后,它通过判别器选择高质量数据来微调扩散模型,从而提高扩散模型对未见过的任务的泛化能力。我们在KUKA工业机械臂和Maze2D两个基准环境中和两个精心设计的未见过的任务上进行了实证实验,证明了AdaptDiffuser的有效性。例如,在Maze2D上AdaptDiffuser比之前的Diffuser [1]性能高出20.8%,在MuJoCo上比之前的Diffuser性能高出7.5%,而且AdaptDiffuser能够更好地适应新任务,在KUKA拾取任务中,在没有额外专家数据的情况下AdaptDiffuser的性能相较于Diffuser提高了27.9%。
代码链接:https://adaptdiffuser.github.io/
论文链接:https://arxiv.org/pdf/2302.01877.pdf
01
Background
自DDPM在2021年底被提出用于建模图像生成过程之后,扩散模型一直是最强有力的生成模型,包括Midjourney在内的扩散模型表现出十分强大的性能。深度生成模型的难点在于如何去应对高维数据的联合概率分布,从而进行表征学习和判断。在扩散模型被提出之前,VAE、规整流、对抗生成网络等多项工作都对生成模型进行了探索。
VAE通过学习一个编码器和解码器试图将实际的图像数据建模到潜变量的空间中,然后我们通过学习和采样潜变量恢复出原始图像。
生成对抗网络(GAN)的主要思想是:通过生成器(generator)与判别器(d