开源视频版GPT-4o？快速记忆，实时问答，拿下CVPR‘24长视频问答竞赛冠军

最新推荐文章于 2024-09-14 18:17:23 发布

诗者才子酒中仙

最新推荐文章于 2024-09-14 18:17:23 发布

阅读量707

点赞数 14

分类专栏：物联网 / 互联网 / 人工智能 / 其他文章标签：音视频人工智能 chatgpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leyang0910/article/details/140273784

版权

物联网 / 互联网 / 人工智能 / 其他专栏收录该内容

541 篇文章 1 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

基于 ChatGPT、LLAMA、Vicuna [1, 2, 3] 等大语言模型（Large Language Models，LLMs）的强大理解、生成和推理能力，多模态大模型（Large Multimodal Models，LMMs）在图片视觉理解任务上取得了成功，如 MiniGPT-4、LLAVA [4, 5, 6] 等等。更进一步地，一些工作将 LMM 强大的图片理解能力迁移到视频领域，使得视频内容理解和推理成为可能，例如 Video-ChatGPT、Vista-LLaMA [7, 8] 等。

然而，大多数多模态模型仅能对较短的离线视频数据进行文本描述或问答，对于长视频和在线视频流的理解能力比较有限。让模型具有理解长视频的能力是通往更智能的模型甚至达到 AGI 的路径。这一研究空白限制了多模态大模型在许多在线场景中的实际应用，如具身人工智能、智能监控系统等。

针对这点，一些工作 [9, 10] 开始研究如何增强对长视频的理解能力，大多基于帧采样和特征融合的方法。然而，现有的方法存在以下缺点：1) 显存开销和回答延迟随输入帧数量增长，这为长视频理解带来困难，只能使用稀疏采样等方式，而这会显著影响模型性能。2) 无法处理在线视频流，只能将在线视频流进行分段处理，难以处理新输入的视频片段与旧视频片段之间的信息交互

了解本专栏

超级会员免费看

诗者才子酒中仙

关注

14
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

诗者才子酒中仙 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。