论文链接Arxiv
本文所提出的LBA不同于标准的VQA模型,LBA在训练时大部分question是不给出的,学习器必须问出它想回答的问题,这样做可以达到与环境交互的目的,就像是课堂上一个聪明的学生会问出有用的好问题来促进自己学习。大体步骤如下:
1)学习器需要一个语言模型来生成问题;
2)学习器需要理解视觉图像以确保问出的问题与图像是相关的;
3)学习器应该有“自知之明”,能够自我评价,换句话说学期器能够“日三省其身”,然后知道不懂就要问,问出能够让自己进步的好问题。
下图给出了LBA模型的框架图:
下图是作者提出的具体方法:
1)给定图像
I
I
I,Agent使用Question Generator生成一些问题,
2)然后经过Question Relevance过滤掉“无关”的Invalid的问题,生成一组Question Proposals(和目标检测里的Region Proposal的目的一样),
3)接着,Agent使用VQA模型来回答自己的问题,
4)然后根据预测的效果和对过去表现的自我认知,从Question Proposals中选择一个问题来让先知(Oracle)回答。