多模态检索、生成和融合
多模态数据是指同源的多种模态数据,例如同一事件的图像描述、文字描述、视频或者音频描述。多模态数据间的互补信息可为相应任务提供丰富的特征表达。
- 多模态检索
多模态检索,就是使用一种模态数据作为查询来检索另外一种模态数据,输入输出分别为统一实物的不同模态数据。例如,用户可以使用文本来检索相关的图片或者视频等。
多模态检索的通用框架一般是:首先提取不同模态数据的特征,其次基于这些特征表达,利用跨模态间的关系来学习不同模态的共同表示,最后基于学习到的共同表示,通过合适的策略来获得跨模态检索的结果。
-
多模态生成
多模态生成,是指根据某一种模态数据,生成另外一种模态数据。目前,多模态生成已经成为非常热门的方向,不近可以通过多模态生成得到的数据解决训练数据稀少或者缺失问题,还可以生成一些启发式的数据。
多模态生成主要包含跨域生成、跨视角生成和跨模态生成。其中跨模态生成研究最多。 -
多模态融合
多模态融合是指充分挖掘多种模态数据间的互补信息,以期提高对应任务的性能。