多模态MLLM都是怎么实现的(6)-Dit Diffusion Transformer
FID-10K,就是每10万张的图片的FID的测试结果,我们发现它还有clip score这两个评测值,都主要和两个因素最相关,一个是encoder的size,encoder这里指的是文字encoder,所以Dalle3和Sora为啥牛B,因为有GPT-4当encoder,虽然不是直接当,这个下节课讲。右边蓝色的部分就是关于被加噪的latent要被生成什么样的解析率,什么样的内容的图片(视频)的描述,包括要跑多少个step,然后过文字的Token化,这部分也是我们之前讲过的所谓Condition,条件项。
复制链接