多模态理论与论文研究,如何入门及理解,学习分享-深度之眼多模态情感识别

学习经验

多模态学习旨在使计算机拥有处理不同来源信息的能力,近年来成为了人工智能领域的研究热点。多模态学习将不同模态信息进行融合,学习不同模态信息之间的关联。

和朋友搭伙研究了多模态,学习了 深度之眼的多模态人类情感识别和多模态理解科研论文,思路清晰了,👇有自己总结的经验图

总结了一些经验,可自取

资料获取地址哈

链接:https://pan.baidu.com/s/1eh8cj9-Pr63lK8hSbjJ3dg 
提取码:ytk8 

 

什么是多模态?

多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。

顾名思义,多模态研究的就是这些不同类型的数据的融合的问题。

目前大多数工作中,只处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式。

这就涉及到图像和文本领域的内容。

多模态的任务和数据集有哪些?

多模态研究的是视觉语言问题,其任务是关于图像和文字的分类、问答、匹配、排序、定位等问题。

例如给定一张图片,可以完成以下任务:

一、VQA(Visual Question Answering)视觉问答

输入:一张图片、一个自然语言描述的问题

输出:答案(单词或短语)

二、Image Caption 图像字幕

输入:一张图片

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值