会议之眼前沿领域篇-联邦学习
在上一期中,我们为大家带来了什么是联邦学习,谷歌为你画了部漫画!联邦学习属于相对前沿的研究领域,做好了离发顶会paper也就不远了。这不,北大、鹏城实验室以及腾讯三家强强联手发表了一篇联邦学习论文,用于解决视觉和语言基础问题。该论文目前已被AAAI 2020收录!
文章简介
http://web.pkusz.edu.cn/adsp/files/2019/11/AAAI-FenglinL.1027.pdf
最近,大家对诸如图像字幕和视觉问题解答(visual question answering,VQA)有很强的研究兴趣。受到联邦学习的启发,作者提出了一种联邦学习框架aimNet,该框架通过绑定不同的下游视觉和语言任务来提取细粒度的图像表示,同时避免了数据共享。
aimNet介绍
在图像字幕中,系统将图像作为输入,并输出描述。而VQA是一个更具挑战性的问题,需要要求模型根据图像和问题给出答案。深度神经网络在推进图像字幕和VQA的最新技术方面取得了巨大的成功。但大多数现有的基于深度学习的框架都专注于单个任务。如果一起考虑这些问题,则可以共同学习来自不同任务的不同知识,并且很有可能提高每个任务的效能。为了实现这一目标,此前已有研究人员提出了针对视觉和语言基础任务的多任务学习框架。但是,这些方法是在共享所有下游任务数据的条件下进行训练的,这可能会导致数据泄漏。联邦学习的目标是根据分布在多个客户之间的数据集训练高质量的集中式模型,而无需共享客户的数据。受此启发,集中式模型aimNet应运而生,它由一个对齐模块,一个集成模块和一个映射模块组成,如图1所示。
对齐模块通过对提取的视觉和文本特征进行相互关注来构建对齐的