模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同,但都是描述同一事物或事件的
常见的多模态问题有
视觉问答:针对图片提问题让计算机回答
多模态建索,用自然语言问句来搜图
多模态任务还有的比如模型在RGB数据集上训练,然后让在深度图或光流图上预测
跨模态/多模态 cross-modal
最新推荐文章于 2024-04-22 13:42:21 发布
模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同,但都是描述同一事物或事件的
常见的多模态问题有
视觉问答:针对图片提问题让计算机回答
多模态建索,用自然语言问句来搜图
多模态任务还有的比如模型在RGB数据集上训练,然后让在深度图或光流图上预测