一、GLM4V-FLASH概述
智匠MindCraft近期整合了全球首款免费的视觉大模型——GLM4V-FLASH。该模型基于智谱AI的先进算法和技术积累,具备强大的图像处理能力。最大上下文长度为8K,最大输出长度为1K,适用于多种视觉任务,如图片内容识别、看图作诗、结构化数据输出等。尽管GLM4V-FLASH不支持视频识别,但其在图像处理领域的表现依然令人瞩目。
二、性能测试与应用场景
1.图片内容识别
大模型回复:
这张图片展示了一个城市的夜景。
在前景中,我们可以看到一个木制的观景台,上面有几位行人正在散步。观景台的栏杆是金属材质的,中间有一根高高的立柱发出白色的光。观景台下是一片绿色的草地和树木。
背景是一排现代建筑群,包括几座高楼大厦和一些低矮的建筑。这些建筑物的外观设计独特,有的墙面是玻璃材质,反射出周围的灯光;有的是砖石结构,呈现出温暖的色调。其中一座特别高的摩天大楼顶部亮着灯,显得格外引人注目。
此外,还有一些装饰性的元素点缀在整个场景中。例如,有一个巨大的鹿形雕塑位于画面的右侧,它由木材制成,表面涂有金色的漆,看起来非常醒目。还有几个彩色的字母标志散布在草地上,拼写出“DREAM”的字样。
整体上,这个城市夜景给人一种繁华、现代且充满艺术气息的感觉。
点评:识别的细致度相当可以了,完全不是免费模型应付一下的样子。
2.看图作诗
大模型回复:
GLM-4V-FLASH:
瀑布飞流直下三千尺,水雾弥漫似仙境。
山间房屋错落有致,绿树环抱映人家。
碧波荡漾如镜面,倒影美景醉人心。
自然风光无限好,人间胜景在此处。
GLM-4V-PLUS:
山巅楼阁隐云端, 绿树环抱映日残。
飞瀑直下如银练, 古风建筑韵味长。
碧波荡漾映斜阳, 山水相依如画卷。
置身其中忘尘世, 心旷神怡赛仙界。
点评:GLM-4V-FLASH有一定作诗能力,但不是很好。相比之下,智谱的旗舰视觉大模型,GLM-4V-PLUS的看图作诗能力就强了很多。
3.输出结构化数据
大模型回复:
点评:优秀的文字识别能力,并且json格式的梳理很符合逻辑。可以作为OCR的上位替代,并且还是免费。
4.代码还原UI样式
大模型回复:
GLM-4V-FLASH
GLM-4V-PLUS
点评:GLM-4V-FLASH根据图片还原UI代码的能力比较初级,旗舰款GLM-4V-PLUS明显更好。对于这些复杂任务来说,当前国外模型还是有一定优势。
三、限制
1.不支持视频识别。
2.不支持多图识别。
3.图片不大于5MB。分辨率不大于6000*6000。
四、模型的使用及API调用
可以在智匠MindCraft的客户端和小程序上直接使用模型。另外,智匠MindCraft的开发者平台提供了便捷的API接口,用户可以通过调用GLM4V-FLASH的API集成到自己的项目中。无论是个人开发者还是企业用户,现在都可以快速上手这款免费的视觉大模型。