无限免费使用视觉大模型GLM-4V-FLASH——模型简评与使用

高通智匠MindCraft Al

已于 2024-12-12 10:28:45 修改

阅读量1.7k

点赞数 22

文章标签：人工智能 gpt ai 语言模型 AIGC openai

于 2024-12-12 10:19:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_85549225/article/details/144418782

版权

一、GLM4V-FLASH概述

智匠MindCraft近期整合了全球首款免费的视觉大模型——GLM4V-FLASH。该模型基于智谱AI的先进算法和技术积累，具备强大的图像处理能力。最大上下文长度为8K，最大输出长度为1K，适用于多种视觉任务，如图片内容识别、看图作诗、结构化数据输出等。尽管GLM4V-FLASH不支持视频识别，但其在图像处理领域的表现依然令人瞩目。

二、性能测试与应用场景

1.图片内容识别

大模型回复：

这张图片展示了一个城市的夜景。

在前景中，我们可以看到一个木制的观景台，上面有几位行人正在散步。观景台的栏杆是金属材质的，中间有一根高高的立柱发出白色的光。观景台下是一片绿色的草地和树木。

背景是一排现代建筑群，包括几座高楼大厦和一些低矮的建筑。这些建筑物的外观设计独特，有的墙面是玻璃材质，反射出周围的灯光；有的是砖石结构，呈现出温暖的色调。其中一座特别高的摩天大楼顶部亮着灯，显得格外引人注目。

此外，还有一些装饰性的元素点缀在整个场景中。例如，有一个巨大的鹿形雕塑位于画面的右侧，它由木材制成，表面涂有金色的漆，看起来非常醒目。还有几个彩色的字母标志散布在草地上，拼写出“DREAM”的字样。

整体上，这个城市夜景给人一种繁华、现代且充满艺术气息的感觉。

点评：识别的细致度相当可以了，完全不是免费模型应付一下的样子。

2.看图作诗

大模型回复：

GLM-4V-FLASH:

瀑布飞流直下三千尺，水雾弥漫似仙境。

山间房屋错落有致，绿树环抱映人家。

碧波荡漾如镜面，倒影美景醉人心。

自然风光无限好，人间胜景在此处。

GLM-4V-PLUS:

山巅楼阁隐云端，绿树环抱映日残。

飞瀑直下如银练，古风建筑韵味长。

碧波荡漾映斜阳，山水相依如画卷。

置身其中忘尘世，心旷神怡赛仙界。

点评：GLM-4V-FLASH有一定作诗能力，但不是很好。相比之下，智谱的旗舰视觉大模型，GLM-4V-PLUS的看图作诗能力就强了很多。

3.输出结构化数据

大模型回复：

点评：优秀的文字识别能力，并且json格式的梳理很符合逻辑。可以作为OCR的上位替代，并且还是免费。

4.代码还原UI样式

大模型回复：

GLM-4V-FLASH

GLM-4V-PLUS

点评：GLM-4V-FLASH根据图片还原UI代码的能力比较初级，旗舰款GLM-4V-PLUS明显更好。对于这些复杂任务来说，当前国外模型还是有一定优势。

三、限制

1.不支持视频识别。

2.不支持多图识别。

3.图片不大于5MB。分辨率不大于6000*6000。

四、模型的使用及API调用

可以在智匠MindCraft的客户端和小程序上直接使用模型。另外，智匠MindCraft的开发者平台提供了便捷的API接口，用户可以通过调用GLM4V-FLASH的API集成到自己的项目中。无论是个人开发者还是企业用户，现在都可以快速上手这款免费的视觉大模型。

智匠MindCraft AI官网

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。