多模态理论基础——什么是多模态?

多模态理论

1.什么是多模态(multimodal)

模态指的是数据或者信息的表现形式,如文本、图像、音频、视频等

多模态指的是数据或者信息的多种表现形式,一个信息,它可以存在多种表现形式。

“下雪”场景的多模态数据(视频、图像、音频、文本)

为什么会有多模态呢?

因为人类有多种感官来处理信息:比如听觉、嗅觉、视觉、触觉、味觉等,它们都可以获取并且处理不同形式的信息。

为了让计算机具备分析互联网数据的能力、模拟人类的认知方式,同时处理多个模态数据的多模态信息处理技术应运而生。

2.深度学习中的多模态

在目前的人工智能任务中,我们所说的多模态更多的指对于 3V 任务的支持,也即 Verbal(文本)、Vocal(语音) 和 Visual(视觉)

深度学习中有很多经典的任务,都是基于这三种任务之间互相转换的。比如图像生成任务(Image Generation from Text),根据文本描述生成图像,反过来的图像描述任务(Image Captioning),根据图像来生成文本,就像是我们小学学的看图作文一样。

image-20241004102659554

参考:5分钟理解什么是多模态-CSDN博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值