VTimeLLM: Empower LLM to Grasp Video Moments 论文复现

VTimeLLM介绍

文章链接 https://arxiv.org/abs/2311.18445
VTimeLLM是一个识别视频中,事件发生事件的大模型

文章的创新点分三部分:
1,使用图片数据集训练clip到大模型的全连接层,使得clip提取的特征和大模型的输入对齐。
2,使用 InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation 提供的数据集和部分其他数据集训练LoRA,使得大模型能捕捉事件。
3,使用精选(?)的数据集训练一个LoRA,使得大模型可以回答除事件外的其他问题(我的理解是,降低 创新点2 中的过拟合现象)。
在这里插入图片描述

论文复现

本人是大模型新手,近期打算发表一个视频大模型相关的文章,于是在公司服务器上从头复现文章折腾中。
代码的 github https://github.com/huangb23/VTimeLLM

1,环境安装

1,cuda版本
nvcc --version
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值