这个系列已经更文一些了,如果有新的文章会继续补充:
- 基于LLMs的多模态大模型(Visual ChatGPT,PICa,MM-REACT,MAGIC)
- 基于LLMs的多模态大模型(Flamingo, BLIP-2,KOSMOS-1)
- 基于LLMs的多模态大模型(MiniGPT-4,LLaVA,mPLUG-Owl,InstuctBLIP,X-LLM)
本篇文章先放一些比较杂的延伸和应用的文章,后面形成分支了再单独开,目前主要是PALM-E,ArtGPT-4,VPGTrans 等。
Pathways Language Model with Embodied
PALM-E是博主很关心的文章之一,它是一个562B的视觉语言模型(PaLM-540B + ViT-22B),有个是目前全球最大的视觉语言模型了。同时它将集成到机器人控制中,即多模态具身智能,这将为目前已经很强大的模型们加上机器人的手臂。关于多模态具身智能可以看博主以往的博文,不再赘述: