🛠 多模态模型微调实录:LoRA能不能搞图文模型?我实测了!
✅ 一、为啥还要折腾微调?原始模型不行吗?
最近在部署国产图文模型(比如 Qwen2.5-Omni、DeepSeek-VL)的时候,有个朋友问我:
“这些模型不是已经挺强了吗?图题、OCR、图文问答都能做,干嘛还要自己微调?”
我一开始也觉得通用模型够用了,但真把它接入图题系统、教育题库、票据OCR之后,发现几个问题:
- 问题一:模型默认回答太“通用”,比如图中问几个长方形,它会给你“我认为图中有一些形状……”
- 问题二:你有特殊格式要求(比如输出 JSON、生成总结),原始模型不太听话
- 问题三:你有行业数据,比如教学图题、审图报告、结构图解析,用默认模型根本没见过这类样本
👉 所以,想让模型听你的话,还得喂它你自己的饭:微调它。