多模态基础模型-InternVideo2：Scaling Video Foundation Models for Multimodal Video Understanding

lovep1

已于 2025-03-02 12:23:51 修改

阅读量1.8k

点赞数 7

分类专栏：基础模型训练专题文章标签：人工智能大模型视频理解多模态基础模型 videochat

于 2025-02-16 17:25:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lovep1/article/details/145622951

版权

一、TL；DR

模型训练上，设计了一种渐进式的训练方法，将掩码视频建模、跨模态对比学习和下一个token预测统一起来，
数据质量上，强调时空一致性，通过语义分割视频并生成视频-音频-caption，改善了视频和文本之间的对齐
将参数量扩展到了60亿，视频识别、视频-文本任务、音频和以及视频中心对话取得sota

二、方法与训练

2.1 渐进式对齐训练

Internvideo2是通过渐进式训练方案构建的（小公司的人看看就行了，我是直接tune head），具体如下所示：

通过未掩码重建捕捉时空结构（only video）
与其他模态的语义对齐（text/autio/img）
通过下一个video token预测来增强模型的开放式对话能力（LLMs/MLLMS）

2.1.1 stage1：Reconstructing Unmasked Video Tokens

本阶段，模型学习重建unmasked的video token，使视频编码器能够发展基本的时空感知能力。为了估计已经存在的tokens，采用不同方式训练的视觉编码器InternVit作为代理。此时只有单模态:

具体怎么做？

使用InternVL-6B和VideoMAEv2-g的方法，通过简单的投影层将未掩码的知识传递给模型。
训练时，我们将完整视频输入到不同的教师模型中，并在多模态模型InternVL和运动感知模型VideoMAEv2的语义指导下逐帧mask掉掉80%的标记。只对齐未掩码的标记，通过最小化学生模型和教师模型之间的均方误差（MSE）来实现。学习目标是重建剩余的token，

最低0.47元/天解锁文章

博客等级

码龄7年

62
原创

574
点赞

985
收藏

310
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

大模型思维链COT：Chain-of-Thought Prompting Elicits Reasoningin Large Language Models
lovep1: 可以考虑在模型的推理过程中做一些thinking的过程，去引导模型思考，比如描述清楚你想要的目的
数据质量：From Quantity to Quality: Boosting LLM Performance with Self-GuidedData Selection for Instruct
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619669372。
Channel-wise Knowledge Distillation for Dense Prediction论文阅读和
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
DFN：Data Filtering Network 论文阅读和理解
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。