|什么是模态?
随着越来越多的大模型上车,创新的汽车智能化产品和服务不断涌现。当你发现一个好用或者好玩的功能,想要分享给朋友时,可以用文字写出来,可以给对方发语音,也可以拍照分享,当然拍一个功能完整演示的视频也属于常规操作。
无论是文本、语音、图像还是视频,都是我们表达和传递信息、同时也是感知信息的方式,而每一种信息的来源或者形式,可以称之为「模态」(Modality)。一个有意思的功能是信息,表现形式或者说媒介是多种多样的,也就是说,同一个信息,模态可以是多元的。
人类通过视觉、听觉、触觉、嗅觉等感官来接收和理解外部的信息,也可以通过前述的文字、语音、图像、视频等模态来表达、传递和交流信息。不过只是将模态划分到这些媒介并不足够细,更广义上来说,两种不同的语言,比如中文和英文,也是两种不同的模态。
世界上万事万物都有不同的表现形式,形形色色的模态让我们生活的环境丰富多彩,人类认识、理解乃至改造环境,离不开多种模态信息的交互。
|为什么大模型需要多模态?
在人工智能的发展过程中,此前大多数模型主要是基于单一模态的数据进行学习、训练和推理的。