InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language
我们提出了一个先进的交互式视觉框架,称为InternGPT (iGPT),它结合了指向和语言指令的优势来执行复杂的以视觉为中心的任务。它由三个主要组件组成:处理图像或视频指向指令的感知单元,具有辅助控制机制的 LLM 控制器,可以准确解析语言指令,这是一个开放世界工具包,集成了 HuggingFace 的各种在线模型、用户训练的私有模型以及其他应用程序(例如,计算器、搜索引擎)。实习生GPT对指向和语言指令具有同等的重要性,并使用感知单元和LLM控制器在工具包中协调和执行应用程序,以完成复杂的以视觉为中心的
复制链接