java 转换模态_多模态之间可否实现相互转化?

之前做过Multi-Model相关的工作,多媒体汇总多模态可以分为:image-text

image-audio

text-audio

Image-Text

文本和图片不同模态的转换常见的应用:Image-caption(也就是看图说话),Image-VQA(图像问答),Image-retrival(基于text进行图像检索)。当然还有反向,Text生成Image。

给定一张图片,如一张男性的图片-man+woman=女性的图片。这就说明图像特征与文本特征之间有了语义上的关联,并可以图像特征通过文本特征转换,可以得到另外一种状态的图像特征。从RBM开始到GAN,生成模型在相互转化这块做的还不错

Image-Audio

这块比较经典的案例就是Lip-reading,给定一张嘴型,生成对应的语音,给定一段语音,生成对应的嘴型。

Lip-Net :给定图片生成语音

Text-auido

这个场景现实中应用比较多,比如智能音箱。核心的思路是:

人说话:小爱同学 (语音)

音箱:“小爱同学”(语音) -> 文本 -> 智能对话 - > 回答的文本 -> TTS(语音合成)-> "我在这儿呢"(语音)

智能音箱是相互转换的比较成功的一个例子。

以上是一些多模态转换的例子和papers,其实核心思想都是去挖掘他们之间的关联:映射至相同的空间,让语义接近的特征拉近距离,语义较远的特征拉远距离。当然这是一个方法。

扯多了,希望能给你一些启发

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值