无限免费使用视觉大模型GLM-4V-FLASH——模型简评与使用

一、GLM4V-FLASH概述

      智匠MindCraft近期整合了全球首款免费的视觉大模型——GLM4V-FLASH。该模型基于智谱AI的先进算法和技术积累,具备强大的图像处理能力。最大上下文长度为8K,最大输出长度为1K,适用于多种视觉任务,如图片内容识别、看图作诗、结构化数据输出等。尽管GLM4V-FLASH不支持视频识别,但其在图像处理领域的表现依然令人瞩目。

二、性能测试与应用场景

1.图片内容识别

大模型回复:

    这张图片展示了一个城市的夜景。

       在前景中,我们可以看到一个木制的观景台,上面有几位行人正在散步。观景台的栏杆是金属材质的,中间有一根高高的立柱发出白色的光。观景台下是一片绿色的草地和树木。

       背景是一排现代建筑群,包括几座高楼大厦和一些低矮的建筑。这些建筑物的外观设计独特,有的墙面是玻璃材质,反射出周围的灯光;有的是砖石结构,呈现出温暖的色调。其中一座特别高的摩天大楼顶部亮着灯,显得格外引人注目。

        此外,还有一些装饰性的元素点缀在整个场景中。例如,有一个巨大的鹿形雕塑位于画面的右侧,它由木材制成,表面涂有金色的漆,看起来非常醒目。还有几个彩色的字母标志散布在草地上,拼写出“DREAM”的字样。

       整体上,这个城市夜景给人一种繁华、现代且充满艺术气息的感觉。

点评:识别的细致度相当可以了,完全不是免费模型应付一下的样子。

2.看图作诗

大模型回复:

GLM-4V-FLASH:

瀑布飞流直下三千尺,水雾弥漫似仙境。

山间房屋错落有致,绿树环抱映人家。

碧波荡漾如镜面,倒影美景醉人心。

自然风光无限好,人间胜景在此处。

GLM-4V-PLUS:

山巅楼阁隐云端,  绿树环抱映日残。  

飞瀑直下如银练,  古风建筑韵味长。  

碧波荡漾映斜阳,  山水相依如画卷。  

置身其中忘尘世,  心旷神怡赛仙界。

点评:GLM-4V-FLASH有一定作诗能力,但不是很好。相比之下,智谱的旗舰视觉大模型,GLM-4V-PLUS的看图作诗能力就强了很多。

3.输出结构化数据

大模型回复:

点评:优秀的文字识别能力,并且json格式的梳理很符合逻辑。可以作为OCR的上位替代,并且还是免费。

4.代码还原UI样式

大模型回复:

GLM-4V-FLASH

GLM-4V-PLUS

点评:GLM-4V-FLASH根据图片还原UI代码的能力比较初级,旗舰款GLM-4V-PLUS明显更好。对于这些复杂任务来说,当前国外模型还是有一定优势。

三、限制

1.不支持视频识别。

2.不支持多图识别。

3.图片不大于5MB。分辨率不大于6000*6000。

四、模型的使用及API调用

可以在智匠MindCraft的客户端和小程序上直接使用模型。另外,智匠MindCraft的开发者平台提供了便捷的API接口,用户可以通过调用GLM4V-FLASH的API集成到自己的项目中。无论是个人开发者还是企业用户,现在都可以快速上手这款免费的视觉大模型。

智匠MindCraft AI官网

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值