多模态+SNN个人学习历程和心得

Daniel Mui

已于 2024-01-09 21:14:26 修改

阅读量2.5k

点赞数 29

分类专栏：个人项目文章标签：机器学习深度学习学习 python

于 2024-01-09 20:34:56 首次发布

本文链接：https://blog.csdn.net/m0_51495585/article/details/135485111

版权

祖传开头

这次想写一个一直深藏心中的研究方向，那就是多模态方向。其实当初在实验室那会儿，最先接触的就是多模态的工作，因此这是我科研之路的起点。只不过，后来经历了一些波折，导致个人没有往这个方向深挖，这篇博客主要是想记录一些多模态相关的知识基础，还会涉及一些脉冲神经网络（SNN）的知识，同时记录个人参与过的工作，留下一些回忆。

多模态学习

基本概念

多模态学习，或者称为多模态机器学习（MMML），是近年来学术界非常热门的话题和方向。就如2023年讨论度最高的大模型方向，目前也在往多模态方向进军，各大企业都追求开发多模态的大模型。多模态听起来可能有点抽象，但不难理解。

所谓模态（Modality），通常指的是某种感觉、知觉或信息传递的方式或通道，具体可以涵盖不同的感觉或信息传递方式，如视觉、听觉、触觉、嗅觉和味觉等，每种感觉或信息传递方式都可以被称为一种模态。多模态（Multimodal）则是指涉及多种不同感觉或信息传递方式的情况。在多模态信息处理中，不同的感觉通道可以相互交互，以综合或增强对信息的理解和感知。

形式

多模态可能有以下三种形式：

描述同一对象的多媒体数据。如互联网环境下描述某一特定对象的视频、图片、语音、文本等信息，这种是最常见的多模态的理解。
来自不同传感器的同一类媒体数据。如医学影像学中不同的检查设备所产生的图像数据，如CT、B超、核磁共振等。
具有不同的数据结构特点、表示形式的表意符号与信息。包括了结构化和非结构化的数据单元，数学概念的多种表达方式，以及语义符号的不同形态。例如，可以用不同的数据格式来描述同一地理位置，如地理坐标、地图图像或文字描述。同样，数学中的某个概念可以以公式、逻辑符号、函数图或解释性文本的形式呈现。语义符号也具有多样性，如词向量、词袋、知识图谱等，都可用于表达相同的概念或语义。

我们再细说多模态数据。对于同一个对象，描述的方式可以是不同的（视角或领域不同），把描述这些数据的每一个领域或者视角叫做一个模态。通俗地理解，就是输入数据的类型不同，比如文本、图片、音频、视频等等。在视频分析中，视频可以分解为音频、图像、字幕等多模态信息；每个图片又可以表示成强度或者灰度、纹理等不同模态特征。

模态间的关联性：每个模态能为其余模态提供一定的信息，即模态之间存在一定的关联性。对不同模态数据进行同等处理或对所有模态特征进行简单的连接整合不能保证挖掘任务的有效性。

多模态机器学习是指基于不同模态的数据进行学习的算法，通常研究文本、语音和视觉。

一般方法

表征（Representation）。找到某种对多模态信息的统一表示，分为协同表征Coordinated representations（每个模态各自映射然后用用相关度距离来约束表示）和联合表征Joint representations（多个模态一起映射）；
翻译（Translation）。一个模态映射到另一个模态，分为 example-based（有候选集，如检索任务）和 generative（Encoder-Decoder）；
对齐（Alignment）。找模态子成份之间的关系，如某词对应某区域。分显式对齐和隐式对齐，Attention 首当其冲；
融合（Fusion）。整合信息，分为 model-agnostic（早晚融合）和 model-based（融合更深入）；
联合学习（Co-learning）。通过利用丰富的模态的知识来辅助稀缺的模态，分为parallel（如迁移学习），non-parallel（迁移学习，zero shot），hybrid 等。