之前做过Multi-Model相关的工作,多媒体汇总多模态可以分为:image-text
image-audio
text-audio
Image-Text
文本和图片不同模态的转换常见的应用:Image-caption(也就是看图说话),Image-VQA(图像问答),Image-retrival(基于text进行图像检索)。当然还有反向,Text生成Image。
给定一张图片,如一张男性的图片-man+woman=女性的图片。这就说明图像特征与文本特征之间有了语义上的关联,并可以图像特征通过文本特征转换,可以得到另外一种状态的图像特征。从RBM开始到GAN,生成模型在相互转化这块做的还不错
Image-Audio
这块比较经典的案例就是Lip-reading,给定一张嘴型,生成对应的语音,给定一段语音,生成对应的嘴型。
Lip-Net :给定图片生成语音
Text-auido
这个场景现实中应用比较多,比如智能音箱。核心的思路是:
人说话:小爱同学 (语音)
音箱:“小爱同学”(语音) -> 文本 -> 智能对话 - > 回答的文本 -> TTS(语音合成)-> "我在这儿呢"(语音)
智能音箱是相互转换的比较成功的一个例子。
以上是一些多模态转换的例子和papers,其实核心思想都是去挖掘他们之间的关联:映射至相同的空间,让语义接近的特征拉近距离,语义较远的特征拉远距离。当然这是一个方法。
扯多了,希望能给你一些启发