Vid2seq

Vid2Seq 是一种综合性的视频理解模型,通过结合视频画面和语音内容进行训练,避免仅依赖视觉编码器的简单投影。模型采用Encoder-Decoder结构,其中视频和语音分别经过双层编码器处理,然后通过相对位置嵌入增强位置语义。T5模型的相对位置嵌入提供了一种有效的位置表示方法,区别于传统的Sinusoidal和Rotary Positional Embeddings。此外,文章还介绍了Encoder-only(如BERT, RoBERTa)和Decoder-only(如GPT系列,Llama)模型的差异。" 117599523,5855745,微信小程序WebSocket实现即时聊天功能,"['微信小程序开发', 'WebSocket', '实时通信']
摘要由CSDN通过智能技术生成

Vid2Seq 应该是目前为止,个人最中意得一篇能够实际解决对一段视频进行粗略理解得paper了。个人认为它能够真正能解决视频理解是因为它是对一个模型整体做了训练,而不仅仅是通过visual encoders(e.g BLIP/CLIP/…)和 其它multi modal 的encoder直接过了个projection,做一个轻松的finetune 就好。光训练projection的路子,划算是划算,但是效果不好,比如video-llama, PG video llava…

例子:(PS:是吧,就比那种光projection的,描述上要更贴合实际,而不是轻飘飘的说个摸棱两可的话)
在这里插入图片描述

对于一段视频,time_input_token 为 (n, 2), text_input_token 为 (n,根据tokenize得到的长度),n为切分后的片段。

这个是语音
在这里插入图片描述
它就是直接concat 在前后,35 变成 37,97 变成 99…
在这里插入图片描述
模型输入有分视频画面和 拼好后的语音, 上面的都仅仅是语音的。
在这里插入图片描述
仔细观察结构,不管是视频画面还是语音内容,都经过了两个步骤的encoders。等两个内容准备好后,要将它们按照以下形式再次拼接。

 if self.use_video and self.use_speech:
    encoded.last_hidden_state = torch.cat([video, encoded.last_hidden_state], dim=1)
    encoder_atts = torch.cat([<
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值