整个模型可表示为: 输入为之前的状态S_t-1、整个文本特征X、新观察到的场景视觉特征Vt和对象的视觉特征Ot。 输出为新的状态,动作概率和目标概率(仅数据集PEVERIE)。 1)在初始化阶段, 借助预训练模型