上一篇的链接:多模态MLLM都是怎么实现的(7)-Sora (qq.com)
上上一篇的链接:多模态MLLM都是怎么实现的(6)-Dit Diffusion Transformer (qq.com)
上上上一篇的链接:多模态MLLM都是怎么实现的(5)-Backbone, Unet or Transformer?从0搭建一个SD (qq.com)
上上上上一篇的链接:多模态MLLM都是怎么实现的(4)-去噪声 (qq.com)
上上上上上一篇的链接: 多模态MLLM都是怎么实现的(2)-DDPM (qq.com)
上上上上上上一篇的链接:多模态MLLM都是怎么实现的(2) (qq.com)
上上上上上上上篇的链接:多模态MLLM都是怎么实现的(1) (qq.com)
其实多模态的这个系列本来都已经完结了的,但是我发现忘了一个很重要的场景VQA,所以过来补一篇。
事情的起因是同事阿贵最近在研究如何把生成式和自动驾驶的场景能串起来&#x