Llava是开源的多模态大模型,由威斯康星麦迪逊大学的Haotian Liu等人研发并发布,论文已中2023NIPS。
Github仓库链接github.com/haotian-liu/LLaVA
1. 模型下载
模型有7B和13B的,本人用的是24GB显存的3090,只推理不微调是绰绰有余。如果7B模型取4bit的quatilization显存可以最低8GB。
以下是模型在hugging face上的仓库,可自行下载。
liuhaotian/llava-v1.5-7b · Hugging Facehuggingface.co/liuhaotian/llava-v1.5-7b编辑
liuhaotian/llava-v1.5-13b · Hugging Facehuggingface.co/liuhaotian/llava-v1.5-13b编辑
2. 模型部署
如果不是在Linux下部署,请参考官方文档MACOS和WINDOWS。以下是官方部署的步骤:
git clone https://github.com/haotian-liu/LLaVA.git
cd LLaVA
创建文件夹后安装必要的包
conda create -n llava python=3.10 -y
conda activate llava
pip install --upgrade pip # enable PEP 660 support
pip install -e .
安装训练模型所需要的包(可选)
pip install -e ".[train]"
pip install flash-attn --no-build-isolation
更新到最新的仓库代码
git pull
pip install -e .
启动CLI推理
python -m llava.serve.cli \
--model-path liuhaotian/llava-v1.5-7b \
--image-file "https://llava-vl.github.io/static/images/view.jpg" \
--load-4bit
注意:--model-path后应该修改成本地模型的路径。temperature默认是0.2,max-new-tokens默认是512。
python -m llava.serve.cli \
--model-path liuhaotian/llava-v1.5-7b \
--image-file "https://llava-vl.github.io/static/images/view.jpg" \
--temperature 0.5 \
--max-new-tokens 256 \
--load-4bit
这个CLI推理脚本比较粗糙,很多功能都没有,比如清除对话的历史记录、批量输入等等,可以自行修改LLaVa/llava/serve/cli.py文件来添加想要的功能。
如果需要微调训练模型,Github仓库里有说明,可直接参考。