video caption
文章平均质量分 89
watersink
你怎么对这个世界,世界就会还你一个怎么样的它
展开
-
视频分类(Classification)和摘要(Captioning)总结
例如,在视频分析中,3D CNN可以检测动作、行为和事件,为视频分类、视频理解和动作识别等任务提供强大的能力。例如,在动作识别任务中,光流信息可以帮助区分不同的动作类别,而RGB信息可以提供更多的上下文信息。然而,与2D CNN相比,3D CNN具有更高的计算复杂性和更大的模型参数量,因此可能需要更多的计算资源和数据来训练。基本思路使用2dcnn或者3dcnn提取rgb视频或者光流视频每一帧的特征,将得到的每一帧的特征输入LSTM或者Transformer这样的语言模型进行学习,从而输出任意形态的句子。原创 2023-07-14 09:05:55 · 2004 阅读 · 0 评论 -
video caption之S2VT
在生成每个词时,均需通过softmax,所以可以看作随着时间步,每向前走一步都做了一次以词汇表为大小,选择其一的分类问题,选择的是置信度最大的那个词。例如,10000个词的词汇表中,在当前时间步中预测到man这个词。论文首次基于sequence to sequence提出一个端到端的模型S2VT,可以实现任意帧的视频输入(sequence of frames),输出任意个数单词(sequence of words)组合成的完整句子输出,从而实现video caption的任务。原创 2023-03-24 16:50:58 · 610 阅读 · 0 评论