视频理解任务综述 & VLM多模态大模型概览

music&movie

已于 2025-01-14 16:14:56 修改

阅读量321

点赞数 1

分类专栏：多模态 VLM 文章标签：人工智能

于 2025-01-09 14:34:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74001625/article/details/145033168

版权

多模态同时被 2 个专栏收录

24 篇文章

订阅专栏

10 篇文章

订阅专栏

通用图像理解模型：图像分类、目标检测、图像分割

一文彻底搞懂多模态 - 多模态理解+视觉大模型+多模态检索_多模态大模型图片理解-CSDN博客

视频理解中的三大基础领域：动作识别(Action Recognition)、时序动作定位(Temporal Action Localization)、视频Embedding

视频理解综述：动作识别、时序动作定位、视频Embedding（赠书）-腾讯云开发者社区-腾讯云

图像理解。图像理解任务涉及单张图像用于各种视觉推理任务，如图像标注和以图像为中心的问题回答。这些任务仅关注空间信息，包括对视觉上下文的粗略理解和对局部视觉细节的细致理解。

短视频理解。与仅涉及静态视觉数据的图像理解任务不同，短视频理解还结合了来自多个视觉帧的时间信息。除了空间推理，事件内的时间推理和跨帧的时空推理在短视频理解中发挥着至关重要的作用。

长视频理解。长视频通常持续数分钟甚至数小时，通常由多个事件组成，与短视频相比，包含更丰富的空间内容和时间变化。长视频理解不仅涉及空间和事件内的时间推理，还涉及事件间推理和来自不同视频事件的长期推理。

从秒级到小时级：TikTok等发布首篇面向长视频理解的多模态大语言模型全面综述_from seconds to hours: reviewing multimodal large -CSDN博客

参考：

视频分类综述-CSDN博客

AI生视频尝鲜-CSDN博客

CLIP模型和BLIP模型：

理解Cross Attention机制、CLIP模型、Q-Former机制和BLIP模型-CSDN博客

LLava：

【LLM多模态】LLava模型架构和训练过程 | CLIP模型_llava 训练-CSDN博客

LLaVA-1.5:强大的多模态大模型（包含论文代码详解）_llava 1.5 数据集-CSDN博客

一文读懂多模态大模型：LLaVA系列 | 从图像到视频的内容理解_llava模型-CSDN博客

GLM-4V:

【机器学习】GLM-4V：图片识别多模态大模型（MLLs）初探-CSDN博客

GLM-4V-Flash - 智谱 AI 推出的首个免费多模态模型API | AI工具集

Qwen-VL：

【中文视觉语言模型+本地部署】23.08 阿里Qwen-VL：能对图片理解、定位物体、读取文字的视觉语言模型 (推理最低12G显存+)-CSDN博客

【机器学习】阿里Qwen-VL：基于FastAPI私有化部署你的第一个AI多模态大模型_qwenvl-CSDN博客

多模态大模型Qwen-VL和MiniCPM-Llama3-V-2_5初体验_qwenvl-CSDN博客

MLM之Qwen：Qwen2-VL的简介、安装和使用方法、案例应用之详细攻略_qwen2-vl使用-CSDN博客

Qwen-VL技术报告笔记_qwen vl-CSDN博客

qwenvl 以及qwenvl 2 模型架构理解_qwenvl与 qwen2vl的差别-CSDN博客

CogVLM：

CogVLM2：第二代视觉大模型，19B 即可比肩 GPT-4V-CSDN博客

智谱&清华联手打造：CogVLM2，全球顶尖开源视觉理解大模型！-CSDN博客

其他：

VideoLLaMA 2：多模态视频理解新突破，音频理解能力再升级，挑战 GPT-4V-CSDN博客

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。