关于VideoQA（视频问答）的基本思路总结

最新推荐文章于 2024-09-29 12:01:20 发布

strivinging

最新推荐文章于 2024-09-29 12:01:20 发布

阅读量5.2k

点赞数 2

分类专栏：杂七杂八的

本文链接：https://blog.csdn.net/qq_22194315/article/details/79645558

版权

杂七杂八的专栏收录该内容

157 篇文章

订阅专栏

先说下大概的思路，将视频进行特征提取，然后将问题进行特征提取，然后将两种特征进行融合，之后用这个融合的特征去产生答案，用标准答案与之计算损失，反向传播对整个模型进行训练。

然后说下具体的细节：

1.将视频进行特征提取时，可以将视频进行分帧，然后将一帧帧图像送入卷积神经网络，最后得到能够代表这整个视频的n帧图像的特征；也可以将视频分成一个个clip，送入C3D网络（不懂的话自己查）进行特征提取，最后得到能够代表这整个视频的m个clip的C3D特征。

2.将问题进行特征提取时，首先建立一个词典，里面装有你的生成你问题的空间里的所有单词与数字的对应关系，当然反向词典也需要即由数字到单词。先将问题进行数字化，就是用一系列自然数来表示，然后还要获得单词向量（不懂自己查），可以自己训练也可以用别人已经训练好的。之后将这一系列数字变成一系列单词向量，最终得到能够代表整个问题的特征。

3.将最终得到的视频特征与问题特征分别进行线性变换，让它们至少在一个维度上是一致的，然后进行一些运算（简单乘、相加、串联等）得到最终的融合特征。

4.将最终的融合特征送入LSTM等类似的（decoder），刚开始会产生一个单词的概率分布，可以根据这个单词的概率分布去选择单词·，下一个单词的产生可以用上一个单词对应的标准单词的特征去产生，也可以直接用上一个单词的特征去产生，直至产生结束词（由自己制定）。

5.计算损失时可以在每次产生单词分布时与标准单词间计算交叉熵，最后加起来得到最终的损失，当然也许还会有其他的方法。得到损失后，通过反向传播算法来对模型进行更新直至达到预期的目标（将模型在验证集上进行运用，观察指标的变化）。

好了，这是大概的一个最最最naive的思路，其他的细节可以自己多看看论文（Video question answer相关的论文），本人也只是刚刚开始搞这个，有什么问题可以一起交流交流，不罗嗦了，继续看paper，撸代码了，拜拜~