Vid2seq

EmoC001

已于 2024-05-29 10:16:36 修改

阅读量267

点赞数 2

文章标签：深度学习人工智能

于 2024-04-07 18:17:50 首次发布

本文链接：https://blog.csdn.net/u013302570/article/details/137465178

版权

Vid2Seq 是一种综合性的视频理解模型，通过结合视频画面和语音内容进行训练，避免仅依赖视觉编码器的简单投影。模型采用Encoder-Decoder结构，其中视频和语音分别经过双层编码器处理，然后通过相对位置嵌入增强位置语义。T5模型的相对位置嵌入提供了一种有效的位置表示方法，区别于传统的Sinusoidal和Rotary Positional Embeddings。此外，文章还介绍了Encoder-only（如BERT, RoBERTa）和Decoder-only（如GPT系列，Llama）模型的差异。" 117599523,5855745,微信小程序WebSocket实现即时聊天功能,"['微信小程序开发', 'WebSocket', '实时通信']

摘要由CSDN通过智能技术生成

Vid2Seq 应该是目前为止，个人最中意得一篇能够实际解决对一段视频进行粗略理解得paper了。个人认为它能够真正能解决视频理解是因为它是对一个模型整体做了训练，而不仅仅是通过visual encoders（e.g BLIP/CLIP/…）和其它multi modal 的encoder直接过了个projection，做一个轻松的finetune 就好。光训练projection的路子，划算是划算，但是效果不好，比如video-llama, PG video llava…

例子：（PS：是吧，就比那种光projection的，描述上要更贴合实际，而不是轻飘飘的说个摸棱两可的话）
在这里插入图片描述

对于一段视频，time_input_token 为（n, 2）, text_input_token 为（n，根据tokenize得到的长度），n为切分后的片段。

这个是语音的
在这里插入图片描述
它就是直接concat 在前后，35 变成 37，97 变成 99…

模型输入有分视频画面和拼好后的语音, 上面的都仅仅是语音的。

仔细观察结构，不管是视频画面还是语音内容，都经过了两个步骤的encoders。等两个内容准备好后，要将它们按照以下形式再次拼接。

 if self.use_video and self.use_speech:
    encoded.last_hidden_state = torch.cat([video, encoded.last_hidden_state], dim=1)
    encoder_atts = torch.cat([<

最低0.47元/天解锁文章

EmoC001

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Vid2seq

光训练projection的路子，划算是划算，但是效果不好，比如video-llama, PG video llava…对于一段视频，time_input_token 为（n, 2）, text_input_token 为（n，根据tokenize得到的长度），n为切分后的片段。仔细观察结构，不管是视频画面还是语音内容，都经过了两个步骤的encoders。例子：（PS：是吧，就比那种光projection的，描述上要更贴合实际，而不是轻飘飘的说个摸棱两可的话）模型输入有分视频画面和拼好后的语音。
复制链接

扫一扫