白干了！刚开发的视频内容总结智能体，转眼被视觉大模型取代

最新推荐文章于 2024-10-10 23:59:02 发布

渡码

最新推荐文章于 2024-10-10 23:59:02 发布

阅读量272

点赞数 1

文章标签： AI编程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/RJGCSS/article/details/142254269

版权

大家好，我是老渡。

上周跟朋友们分享了视频内容总结的智能体，帮我们提高学习效率。

从下载视频，分离音频，到音频转文本，再到大模型总结，没少忙活。

结果今天发现智谱发布了新的视觉大模型 GLM-4V-Plus，能分析、总结视频内容，把上面的流程都免了。

以下面这篇讲解线性代数的视频为例

用 GLM-4V-Plus 模型总结视频核心要点，只需输入视频url和prompt即可。

输出结果：

可以看到 GLM-4V-Plus 模型能读懂视频内容并总结，并且总结的非常详细。拥有视频理解能力的大模型，除了能帮我们提高学习效率，还可以将总结内容送入本地知识库，做一个多模态知识库助手。

仅几行 Python 代码就替代了我们之前开发的智能体，不得不说，智谱这届 plus 模型确实强。

代码中需要的 api key，可在智谱大模型开放平台（bigmodel.cn）获取，文末可直达。

GLM-4V-Plus 既然能分析视频，那分析图片自然不在话下。比如，下面这张图片

我们可以让 GLM-4V-Plus 转成相同格式的文本内容

GLM-4V-Plus 用 MarkDown 表格输出与原图表格一致，并且解析内容也是正确的

这个功能就可以取代 OCR 识别了，轻松提取图片中的文本，既方便又准确。

有些朋友可能还有这样的需求：将PDF转成MarkDown文本，同时保持PDF中的格式

目前有不少开源项目支持这类需求。大致思路是先将 PDF 转成图片，用视觉大模型将图片转成相同格式的文本。这时候，GLM-4V-Plus 就派上用场了。

此外，GLM-4V-Plus 也支持上传多图，分析一系列图片行为。比如，下面是摔倒视频中抽取的关键帧

我们可以让 GLM-4V-Plus 从一系列关键帧中判断是否有摔倒行为。

之前摔倒检测用骨骼点识别+神经网络花了很长时间才实现的，现在用 GLM-4V-Plus 轻松就搞定了。

使用下来，感觉 GLM-4V-Plus 的视觉能力是挺强大的。视觉跟大模型结合可以开发出很多有用、有趣味的AI应用，推荐大家用一下。

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。