
白干了!刚开发的视频内容总结智能体,转眼被视觉大模型取代
可以看到 GLM-4V-Plus 模型能读懂视频内容并总结,并且总结的非常详细。使用下来,感觉 GLM-4V-Plus 的视觉能力是挺强大的。结果今天发现智谱发布了新的视觉大模型 GLM-4V-Plus,能分析、总结视频内容,把上面的流程都免了。之前摔倒检测用骨骼点识别+神经网络花了很长时间才实现的,现在用 GLM-4V-Plus 轻松就搞定了。此外,GLM-4V-Plus 也支持上传多图,分析一系列图片行为。从下载视频,分离音频,到音频转文本,再到大模型总结,没少忙活。以下面这篇讲解线性代数的视频为例。






