我们对世界的体验是多模态的——我们看到物体、听到声音、感觉到纹理、闻到气味、尝到味道。模态是指某件事情发生或经历的方式,一个研究问题如果包含多个模态,就被称为多模态。为了让人工智能在理解我们周围的世界方面取得进展,它需要能够一起解释这种多模态信号。多模式机器学习旨在建立能够处理和关联来自多种模式的信息的模型。这是一个日益重要和具有非凡潜力的充满活力的多学科领域。
如同厨师、小说家和电影制作人必须比食客、读者或电影观众更深刻地理解食物、写作和电影,如果我们的计算机视觉系统要真正理解视觉世界,它们不仅必须能够识别图像,而且还需要能够生成图像。自动图像生成系统可以辅助学生、教育者、艺术家以及平面设计师等群体的任务及工作。有一天,我们可能会用生成定制图像和视频的算法来取代图像和视频搜索引擎,以响应每个用户的个人喜好。