VTimeLLM: Empower LLM to Grasp Video Moments 论文复现

你说爱像云

已于 2024-11-25 14:36:24 修改

阅读量1.1k

点赞数 20

文章标签： python AIGC 机器学习深度学习神经网络语言模型 chatgpt

于 2024-11-01 15:10:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38795318/article/details/143388442

版权

VTimeLLM介绍

文章链接 https://arxiv.org/abs/2311.18445
VTimeLLM是一个识别视频中，事件发生事件的大模型

文章的创新点分三部分：
1，使用图片数据集训练clip到大模型的全连接层，使得clip提取的特征和大模型的输入对齐。
2，使用 InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation 提供的数据集和部分其他数据集训练LoRA，使得大模型能捕捉事件。
3，使用精选（？）的数据集训练一个LoRA，使得大模型可以回答除事件外的其他问题（我的理解是，降低创新点2 中的过拟合现象）。
在这里插入图片描述

论文复现

本人是大模型新手，近期打算发表一个视频大模型相关的文章，于是在公司服务器上从头复现文章折腾中。
代码的 github https://github.com/huangb23/VTimeLLM

1，环境安装

1，cuda版本

nvcc --version

最低0.47元/天解锁文章

你说爱像云

博客等级

码龄8年

2
原创

23
点赞

17
收藏

20
粉丝

关注

私信

热门文章

下一篇：: VTimeLLM: Empower LLM to Grasp Video Moments 论文复现 (stages_2)

最新评论

VTimeLLM: Empower LLM to Grasp Video Moments 论文复现
你说爱像云: 我复现成功了，但是训练后发现这种方式很容易过拟合。你这个问题我没遇到过哎，看样子是少了两个输入？
VTimeLLM: Empower LLM to Grasp Video Moments 论文复现
十字路口的幽灵: 您好，请问你复现成功了吗？我在配置好环境之后，使用命令bash scripts/stage1.sh，会出现下面的错误（说是forward函数返回的值比期望的要多，就涉及代码逻辑上的问题？或者是数据集有点问题？但是我也是在清华云盘中下载的），不知道博主当时有没有遇到这个问题？该如何解决啊┭┮﹏┭┮ File "/root/autodl-tmp/A_VTimeLLM-main/vtimellm/train/llama_flash_attn_monkey_patch.py", line 88, in forward x_unpad, indices, cu_q_lens, max_s = unpad_input(x, key_padding_mask) ValueError: too many values to unpack (expected 4)

大家在看

最新文章

VTimeLLM: Empower LLM to Grasp Video Moments 论文复现 (stages_2)

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。