
多模态论文导读--VQA视觉问答经典论文:(自底向上和自顶向下注意力相结合)Bottom-Up and Top-Down Attention
自顶向下视觉注意力机制被广泛应用于图像字幕生成和视觉问答任务中,使得模型可以通过微调甚至多步推理来达到深层图像理解的目的。在本篇文章中,我们提出了自底向下和自顶向下注意力相结合的机制,从而计算物体级别的注意力和显著图像区域。通过使用我们的方法,自底向上机制(基于Faster R-CNN)提出图像区域,并使用特征向量对每个区域进行表示;同时自顶向下机制用来决定特征权重。














然后仔细回想好像是初中玩我的世界的时候配置java时候注册的







