关于VideoQA(视频问答)的基本思路总结

    先说下大概的思路,将视频进行特征提取,然后将问题进行特征提取,然后将两种特征进行融合,之后用这个融合的特征去产生答案,用标准答案与之计算损失,反向传播对整个模型进行训练。

    然后说下具体的细节:

        1.将视频进行特征提取时,可以将视频进行分帧,然后将一帧帧图像送入卷积神经网络,最后得到能够代表这整个视频的n帧图像的特征;也可以将视频分成一个个clip,送入C3D网络(不懂的话自己查)进行特征提取,最后得到能够代表这整个视频的m个clip的C3D特征。

        2.将问题进行特征提取时,首先建立一个词典,里面装有你的生成你问题的空间里的所有单词与数字的对应关系,当然反向词典也需要即由数字到单词。先将问题进行数字化,就是用一系列自然数来表示,然后还要获得单词向量(不懂自己查),可以自己训练也可以用别人已经训练好的。之后将这一系列数字变成一系列单词向量,最终得到能够代表整个问题的特征。

        3.将最终得到的视频特征与问题特征分别进行线性变换,让它们至少在一个维度上是一致的,然后进行一些运算(简单乘、相加、串联等)得到最终的融合特征。

        4.将最终的融合特征送入LSTM等类似的(decoder),刚开始会产生一个单词的概率分布,可以根据这个单词的概率分布去选择单词·,下一个单词的产生可以用上一个单词对应的标准单词的特征去产生,也可以直接用上一个单词的特征去产生,直至产生结束词(由自己制定)。

        5.计算损失时可以在每次产生单词分布时与标准单词间计算交叉熵,最后加起来得到最终的损失,当然也许还会有其他的方法。得到损失后,通过反向传播算法来对模型进行更新直至达到预期的目标(将模型在验证集上进行运用,观察指标的变化)。

       好了,这是大概的一个最最最naive的思路,其他的细节可以自己多看看论文(Video question answer相关的论文),本人也只是刚刚开始搞这个,有什么问题可以一起交流交流,不罗嗦了,继续看paper,撸代码了,拜拜~

评论 16
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值