搭建了3套它相关的环境分别是 OmniLMM-3B ,OmniLMM-12B,MiniCPM-V-2。
首先,这些模型对图片中文字的识别好差,这是通病嘛?还是说这东西就不太行?
其次,为什么这些模型对图片内的隐含的幽默识别的这么差(比如奥巴马踩体重秤那个图),不说MiniCPM-V-2可以跟GTPV4掰手腕了嘛?但是根本识别不到图片中的含义~
有没有懂的,帮忙解答下这俩问题~
搭建了3套它相关的环境分别是 OmniLMM-3B ,OmniLMM-12B,MiniCPM-V-2。
首先,这些模型对图片中文字的识别好差,这是通病嘛?还是说这东西就不太行?
其次,为什么这些模型对图片内的隐含的幽默识别的这么差(比如奥巴马踩体重秤那个图),不说MiniCPM-V-2可以跟GTPV4掰手腕了嘛?但是根本识别不到图片中的含义~
有没有懂的,帮忙解答下这俩问题~