近期看了一些多模态方向的工作,包括图像、文本多模态,图像、视频、语音、文本多模态,做个总结。
Yi
Qwen-VL
LLaVA
MobileVLM
LanguageBind
Video-LLaVA
VAST
Video-ChatGPT
Chat-UniVi
MiniCPM-V: A GPT-4V Level MLLM on Your Phone
这是一个主打可以在移动端轻量化运行的模型,主要的运行性能提升操作包含:
- 在 GGML 框架基础上进行 4 bit 量化;
- 基于 llama.cpp 的部署框架;
- 内存使用优化:不同时加载 ViT 和 LLM,而是先加载 ViT 进行图像编码,然后加载 LLM 进行 token 编码,来降低内存使用,并且提高图像处理效率;
- 编译优化:直接在目标设备上进行编译,提高运行效率;
- llama.cpp 配置优化:在 llama.cpp 的配置中,根据运行设备选择最合适的配置参数,而不是使用一个默认参数;
- NPU 加速:对于有 NPU 的设备,将 QNN 作为 ViT 的运行后端,而 llama.cpp 作为 LLM 的后端,获得进一步的加速。