Video Understanding with Large Language Models: A Survey

最新推荐文章于 2024-07-17 21:40:42 发布

UnknownBody

最新推荐文章于 2024-07-17 21:40:42 发布

阅读量932

点赞数 21

分类专栏： Survey Paper 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/135908237

版权

Survey Paper 同时被 2 个专栏收录

164 篇文章 7 订阅 ¥99.90 ¥99.00

订阅专栏

超级会员免费看

515 篇文章 3 订阅

已下架不支持订阅

本文是LLM系列文章，针对《Video Understanding with Large Language Models: A Survey》的翻译。

大型语言模型下的视频理解研究综述

摘要
1 引言
2 基础
3 VID-LLMs：模型
4 任务、数据集、基线
5 应用
6 未来方向与应用
- 6.1 局限和未来工作
- 6.2 结论

摘要

随着在线视频平台的蓬勃发展和视频内容量的不断增加，对熟练的视频理解工具的需求明显加剧。鉴于大型语言模型（LLM）在语言和多模式任务中的卓越能力，本调查详细概述了利用LLM（Vid-LLM）的力量进行视频理解的最新进展。Vid LLM的新兴能力惊人地先进，特别是它们与常识知识相结合的开放式时空推理能力，为未来的视频理解提供了一条很有前途的途径。我们研究了视频LLM的独特特性和功能，将这些方法分为四种主要类型：基于LLM的视频代理、视频LLM预训练、视频LLMs指令调整和混合方法。此外，本调查对Vid LLM的任务、数据集和评估方法进行了全面研究。此外，它还探索了Vid LLM在各个领域的广泛应用，突出了其在现实世界视频理解挑战中的显著可扩展性和多功能性。最后，总结了现有Vid LLM的局限性，并概述了未来研究的方向。有关详细信息，建议读者访问存储库，网址为https://github.com/yunlong10/Awesome-LLMs-for-Video-Understanding.

1 引言

2 基础

2.1 与LLM的视觉集成

2.2 语言在视频理解中的角色

2.3 其他模态

了解本专栏

超级会员免费看

关注

21
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
0
评论
Video Understanding with Large Language Models: A Survey

随着在线视频平台的蓬勃发展和视频内容量的不断增加，对熟练的视频理解工具的需求明显加剧。鉴于大型语言模型（LLM）在语言和多模式任务中的卓越能力，本调查详细概述了利用LLM（Vid-LLM）的力量进行视频理解的最新进展。Vid LLM的新兴能力惊人地先进，特别是它们与常识知识相结合的开放式时空推理能力，为未来的视频理解提供了一条很有前途的途径。我们研究了视频LLM的独特特性和功能，将这些方法分为四种主要类型：基于LLM的视频代理、视频LLM预训练、视频LLMs指令调整和混合方法。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。