多模态(MultiModal Learning)学习综述

文章出处:https://imzhanghao.com/2022/10/27/multimodal-learning/

最早开始关注到多模态机器学习是看到Jeff Dean在2019年年底NeurIPS大会上的一个采访报道,讲到了2020年机器学习趋势:多任务和多模态学习将成为突破口。

图片

Jeff Dean 谈2020年机器学习趋势:多任务和多模式学习将成为突破口

站在2022年,也正如他预言的一样,多模态学习在行业内越来越火爆。

图片

多模态机器学习在Google Trends上的表现

一、定义

多模态机器学习,英文全称 MultiModal Machine Learning (MMML)

模态(modal)是事情经历和发生的方式,我们生活在一个由多种模态(Multimodal)信息构成的世界,包括视觉信息、听觉信息、文本信息、嗅觉信息等等,当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态问题,研究多模态问题是推动人工智能更好的了解和认知我们周围世界的关键。

图片

What is Mulimodel

1.1 模态

模态是指一些表达或感知事物的方式,每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

相较于图像、语音、文本等多媒体(Multi-media)数据划分形式,“模态”是一个更为细粒度的概念,同一媒介下可存在不同的模态。 比如我们可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。

1.2 多模态

多模态即是从多个模态表达或感知事物。 多模态可归类为同质性的模态,例如从两台相机中分别拍摄的图片,异质性的模态,例如图片与文本语言的关系。

多模态可能有以下三种形式:

描述同一对象的多媒体数据。如互联网环境下描述某一特定对象的视频、图片、语音、文本等信息。下图即为典型的多模态信息形式。

图片

“下雪”场景的多模态数据(图像、音频与文本)

来自不同传感器的同一类媒体数据。如医学影像学中不同的检查设备所产生的图像数据, 包括B超(B-Scan ultrasonography)、计算机断层扫描(CT)、核磁共振等;物联网背景下不同传感器所检测到的同一对象数据等。

具有不同的数据结构特点、表示形式的表意符号与信息。如描述同一对象的结构化、非结构化的数据单元;描述同一数学概念的公式、逻辑 符号、函数图及解释性文本;描述同一语义的词向量、词袋、知识图谱以及其它语义符号单元等。

通常主要研究模态包括"3V":即Verbal(文本)、Vocal(语音)、Visual(视觉)。人跟人交流时的多模态:

图片

multimodal communicative behaviors

1.3 多模态学习

多模态机器学习是从多种模态的数据中学习并且提升自身的算法,它不是某一个具体的算法,它是一类算法的总称。

语义感知的角度切入,多模态数据涉及不同的感知通道如视觉、听觉、触觉、嗅觉所接收到的信息;在数据层面理解,多模态数据则可被看作多种数据类型的组合,如图片、数值、文本、符号、音频、时间序列,或者集合、树、图等不同数据结构所组成的复合数据形式,乃至来自不同数据库、不同知识库的各种信息资源的组合。对多源异构数据的挖掘分析可被理解为多模态学习

图片

多模态学习举例

二、发展历史

图片

多模态发展的四个时期

2.1 行为时代

The “behavioral” era (1970s until late 1980s),这一阶段主要从心理学的角度对多模态这一现象进行剖析。

  • Chicago 的McNeill 认为手势是说话人的思考行为,是言语表达的重要组成部分,而不仅仅是补足。

  • 1976年的McGurk效应:当语音与唇形不符合时,大脑会脑补出中和的声音MCGURK, H., MACDONALD, J. Hearing lips and seeing voices. Nature 264, 746–748 (1976). The McGurk Effect Video

2.2 计算时代

The “computational” era (late 1980s until 2000),这一阶段主要利用一些浅层的模型对多模态问题进行研究,其中代表性的应用包括视觉语音联合识别,多模态情感计算等等。

  • 视频音频语音识别(AVSR),在声音的低信噪比下,引入视觉信号能够极大提升识别准确率

图片

AVSR

  • 多模态/多感知接口:情感计算:与情感或其他情感现象有关、源于情感或有意影响情感的计算[Rosalind Picard]

  • 多媒体计算:CMU曾有过信息媒体数字视频库项目[1994-2010],

2.3 交互时代

The “interaction” era (2000 - 2010),这一阶段主要主要从交互的角度入手,研究多模态识别问题,其中主要的代表作品包括苹果的语音助手Siri等。

拟人类多模态交互过程

  • IDIAP实验室的AMI项目[2001-2006],记录会议录音、同步音频视频、转录与注释;

  • Alex Waibel的CHIL项目,将计算机置于人类交互圈中,多传感器多模态信号处理,面对面交互

  • 30
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
多模态新闻推荐系统是一种利用多种不同类型的数据(如文本、图像、视频等)来进行新闻推荐的系统。它通过综合考虑不同模态数据的特征和关联性,提供更加个性化和丰富的新闻推荐体验。 多模态新闻推荐系统的综述可以从以下几个方面进行介绍: 1. 数据来源:多模态新闻推荐系统可以从多个渠道获取数据,包括新闻网站、社交媒体平台、用户行为数据等。这些数据可以包含文本、图像、视频等多种类型。 2. 数据处理:在多模态新闻推荐系统中,需要对不同类型的数据进行处理和特征提取。例如,对于文本数据,可以使用自然语言处理技术进行分词、词向量表示等;对于图像数据,可以使用计算机视觉技术提取特征;对于视频数据,可以使用视频分析技术提取关键帧或者视频摘要等。 3. 模态融合:多模态新闻推荐系统需要将不同类型的数据进行融合,以获取更全面和准确的用户兴趣表示。常见的融合方法包括特征级融合和决策级融合。特征级融合是将不同模态特征进行拼接或者加权求和;决策级融合是将不同模态的推荐结果进行组合或者排序。 4. 推荐算法:多模态新闻推荐系统可以使用各种推荐算法来生成个性化的推荐结果。常见的算法包括基于内容的推荐、协同过滤推荐、深度学习推荐等。这些算法可以结合用户的历史行为、兴趣模型多模态数据进行推荐。 5. 用户反馈:多模态新闻推荐系统可以通过用户反馈来不断优化推荐效果。例如,用户可以对推荐结果进行评分、点赞或者收藏,系统可以根据用户反馈进行实时调整和更新推荐策略。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值