点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
今日视频推荐
本期AI TIME PhD直播间,我们有幸邀请到浙江大学计算机科学与技术学院博士生张圣宇,大家分享他的研究工作——大规模多模态因果预训练
嘉宾介绍
张圣宇:
浙江大学计算机科学与技术学院博士生三年级,导师为吴飞老师。研究方向为稳定学习,多模态理解,和推荐系统。在KDD,ACM MM,WWW,SIGIR等会议上发表了多篇长文论文。
个人主页:
https://shengyuzhang.github.io/
主要内容
大规模预训练旨在可轻易大量获得的无标注(或单一标注)数据上学习到与具体下游任务无关的通用表征,以迁移到只有少量标注的具体下游任务上,实现“微调即可用”(如图1)。大规模预训练可追溯到在大型数据集(例如ImageNet[2])上对AlexNet[1],VGG[4]和ResNet[3]等主干模型进行预训练,然后将知识迁移到众多下游计算机视觉任务。自此,预训练开始成为深度学习成功的标志。
最近,在自然语言处理研究领域,基于Transformer和Bert的预训练模型[5,6,7,8,9]的研究工作激增,并且在各类自然语言处理任务中都达到了最佳性能。
图1 预训练链路框架图
视觉或语言单一模态的理解对于视觉或语言任务是必不可少的,不同模态间的相互关系也同样重要,例如,如果下游的多模态模型无法将相关的视觉对象和语言单词在表征上进行联系,则预训练好的单一模态的特征在许多任务无法实现“微调即可用”的能力。因此,在大规模无标注的多模态数据上学习到有利于下游任务关联、理解和推理的特征是非常重要的研究任务[10]。
图2 超大规模跨模态数据集Conceptual Caption中存在的虚假关联问题
相比于直接在下游任务上从零开始进行训练,预训练的特征或模型在带来知识的同时也引入了预训练数据集中的偏差(Biases)[11]。预训练数据集偏差可能对域内(In-domain)数据测试有用,但可能会损害域外(Out-of-domain)数据测试[12],其原因在于虚假关联的产生[13]。例如,如图2所示,在Conceptual Caption数据集中,我们观察到在给定“Instrument”(语言词)的情况下,出现”shirt”(视觉对象)的条件概率很大,即
但是这两者之间没有因果关系。没有因果关联的两个事物在数据集中却被频繁观测到,这看似很奇怪,但在因果理论中可以被有效形式化。如图3所示,我们观测到两个事务X和Y具有很强的关联性(有很多相关的数据都含有<X, Y>数据对),是否就可以判断X到Y具有因果效应,从而让模型放心大胆的学习这种效应呢?答案是否定的,从因果的角度,我们观测到X和Y频繁出现,可能是由于X和Y有共同的共因Z。换句话说,有观测到Z的时候,我们通常也会观测到X(Z→X)&