【论文阅读】Tabular Insights, Visual Impacts: Transferring Expertise from Tables to Images - 表格,图像分类,跨模态迁移

本博客系博主根据个人理解所写,非逐字逐句翻译,预知详情,请参阅论文原文。如有理解不当的地方,欢迎大家一起讨论。

论文标题:Tabular Insights, Visual Impacts: Transferring Expertise from Tables to Images

作者:Jun-Peng Jiang 1 2, Han-Jia Ye 1 2, Leye Wang 3, Yang Yang 4, Yuan Jiang 1 2, De-Chuan Zhan 1 2;

  1. School of Artificial Intelligence, Nanjing University, Nanjing,China.
  2. National Key Laboratory for Novel Software Technology, Nanjing University, Nanjing, China.
  3. Key Lab of High Confidence Software Technologies (Peking University), Ministry of Education & School of Computer Science, Peking University, Beijing, China.
  4. School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing, China.

收录会议:ICML 2024 Spotlight;

论文下载链接Tabular Insights, Visual Impacts: Transferring Expertise from Tables to Images | OpenReview

代码链接https://github.com/RyanJJP/CHARMS

摘要:

在机器学习中,在不同的模态数据之间迁移知识(transfer knowledge)受到了越来越多的关注。

本文解决的问题是:在推断过程中无法获得表格数据的情况下,利用难以获取的、蕴含丰富专家知识的表格数据来增强基于图像的预测。

该问题的主要挑战在于将复杂的表格数据准确映射到视觉内容上,以及必须为数字(numerical)和分类(categorical)表格属性制定不同的策略。

本文提出一个方法,使用最优传输对齐图像通道和表格(CHannel tAbulaR alignment with optiMal tranSport (CHARMS))。这个方法在图像通道和表格属性之间建立对齐关系,从而选择性地传递表格属性中与视觉特征相关的知识。

具体而言,CHARMS度量模态之间的相似性分布,以有效区分和转移图像相关的表格特征,重点关注形态特征,增强视觉分类器的能力。通过最大化图像通道和表格特征之间的互信息(mutual information),提取数字和分类表格属性中包含的知识。

实验结果表明,CHARMS不仅提高了图像分类的性能,而且通过有效利用表格知识提高了可解释性。

本文动机及现有方法的问题:

  • 多模态学习中不同模态的数据所包含的知识和信息量不同,而且不同模态的数据获取难度不同(比如医疗领域,器官的医学图像可以利用仪器大量获取,但是医生的专业诊断信息很难获取)。因此,多模态迁移学习(cross-modal transfer learning)应运而生,实现在训练过程中借助多模态数据从一个模态转移专家知识到另一个模态。
  • 表格数据,通常包含大量的专家知识,但是没有被充分利用(因为表格是结构化数据(structured data),不同于图像文本等非结构化数据,不好处理)。所以本文研究将表格数据中的专家知识迁移到图像模型中,来增强图像分类的性能。
  • 现有的跨模态迁移学习方法大多是关于图像、文本、音视频的,不能直接适用于表格数据。
  • 针对表格数据的处理,早期是使用传统的机器学习方法,比如决策树,支持向量机,随机森林等。但是这些方法依赖于人工的特征工程和数据清洗,难以扩展。
  • 随着深度学习的发展,表格数据可以单独看做一个模态,作为模型输入进行端到端的模型设计,实现了更好的效果。但是实际中,相比于图像文本等,表格数据的数据量是非常少的,所以本文考虑的场景是:在训练中,借助蕴含丰富专家知识的表格数据,来指导图像模型的学习,期望在推理阶段没有表格数据的情况下,也能取得很好的图像模型分类结果。

本文的研究重点:

  • 并不是所有的表格属性(attributes)都对相应的图像学习有作用,所以本文先识别哪些表格属性需要迁移,然后将所选择的属性中的知识迁移到视觉模型中。
  • 针对表格中的数字(numerical)和分类(categorical)属性,本文设计的模型可以直接处理这两种不同类型的表格属性,并且保持模型的可解释性。

本文主要贡献:

  • 本文强调了将知识从表格转移到图像的重要性,因为这可以提高性能同时更好地理解模型,在缺少表格数据的情况下。
  • 本文提出了CHARMS模型,将相关的表格知识转移到图像中。它利用最佳传输(optimal transport)来对齐表格属性和图像通道,并在传输过程中利用表格数据作为额外信息辅助模型的学习。
  • 实验结果表明,CHARMS有效地利用表格知识来增强视觉分类模型。此外,本文的方法为所学习的视觉表征向量提供了深入的解释性。

本文模型及方法:

3.1 表格->图像跨模态传输任务

  • 训练集:\mathcal{D}=\{x_i^T, x_i^I, y_i\}_{i=1}^N 包含 N 个数据样本,每一个数据样本有一张图像和一个表格,以及一个标签;
  • 图像:每一张图像 x_i^I 有三个通道(RGB);
  • 表格:每一个表格 x_i^T \in \mathbb{R}^D 有D个属性,比如数字属性(病人的体温),分类属性(癌症的种类);
  • 标签:图像一共有Y个类别,y_i \in [Y] = {1,...,Y} ;

4.1 初步实验

作者为了探究不同的表格属性对图像数据的影响,做了一个初步的实验,如下图2所示。图中每一个形状代表一个模型,Img-only是只使用图像数据训练的分类模型,Tab-only是只使用表格数据训练的分类模型,其他模型是同时使用了图像和表格数据的多模态模型,CHARMS是本文的模型。

图2: 不同模态的互信息

4.1.1 理论探讨:

作者使用互信息(mutual information)来评估表格数据和图像数据之间的关系(简单理解,两个变量之间互信息越大,他们之间的关联关系越强)

根据文献[1],模型的预测能力和互信息大小有正相关关系,所以,本文将在单图像或者单表格模态上训练出来的分类模型作为最优模型,也就是说有最大的互信息,就是图中的Img-only和Tab-only模型(可以这样理解,对于图像 i,Img-only是只在图像上训练出来的模型,CHARMS是同时在图像和表格上训练出来的模型,那么计算图像 i 和其在Img-only所学的表征之间的互信息,,一定比 i 和其在CHARMS上所学的表征之间的互信息 大。)。所以在上图2中,Img-only在横轴 MI with Image Modality 上达到最大值,Tab-only在纵轴 MI with Tabular Modality上达到最大值。

同时,作者认为,如果一个图像分类模型能够学习到包含表格知识的图像表征,那么这个表征和Img-only或者Tab-only模型所学习的表征之间的互信息应该较高,也就是说,在上图中,应该更接近Img-only或者Tab-only模型(注意,原文中说的是这个图像表征和Img-only模型之间的互信息较高,但是我的理解应该是计算的两个表征之间的互信息,但是我也不确定。这是原文,供大家自行理解:If an image model acquires an image representation that incorporates knowledge transferred from the tabular data, the mutual information between this representation and models trained solely on the tabular or image modalities will be high respectively. )。

4.1.2 图绘制过程:

所以,作者进行了这个实验,在MFEAT数据集上用图像或者表格训练得到所有分类模型,包括单模态模型和多模态模型(MFEAT数据集包含图像和表格两种模态数据,其中表格有两种属性类型,第一种是表示字符形状的傅立叶系数Fourier coefficients that represent character shapes - Fou,和图像没有直接的联系;第二种是形态特征morphological features - Mor,和图像有直接的关系)。

然后作者将图像输入这些模型中,得到图像表征,然后计算这些图像表征之间的互信息(就是横轴的值)。对于表格数据,也这样操作(得到纵轴的值)。

4.1.3 实验结果:

以CHARMS模型为例,上图2的意思是,对于输入的图像,经过CHARMS得到的图像表征,与经过Img-only得到的图像表征之间的互信息大小是3.5;同样,对于输入的表格,经过CHARMS得到的表格表征,与经过Tab-only得到的表格表征之间的互信息大小是2.5. 从图中可以看出,本文提出的模型CHARMS相比于其他多模态迁移模型,学到了更多的表格和图像信息,所以在图中偏右上角的位置。而理论上的最优多模态模型,是最右上角的Hope位置。

另一个方面,观察图2中的KD,KD-Fou,KD-Mor,可以看出,表格的不同属性对于相应的图像表征学习的影响是不同的。这三者是分别用所有表格属性、单fourier表格属性、单morphological表格属性训练出来的多模态迁移模型。

4.1.4 结论:

表格的不同属性对图像数据的影响不同,所以需要选择性地迁移表格中的属性信息。相对应的,图像中的不同通道也包含不同的语义信息。

另一方面,可以通过增强两种模态之间的互信息来加强表格表征和图像表征之间的关联性。

4.2 通道表格对齐 Channel Table Alignment

基于上述发现,本文首先建立图像通道和表格属性之间的联系,然后选择性地从表格属性中迁移知识到图像中,如下图3的黑色箭头左侧部分所示。

图3. CHARMS的总体结构

4.2.1 提取通道表征

本文用 ResNet 提取图像的表征,,其中C代表通道(channel)的数目。然后,作者使用K-Means算法对相似的通道进行聚类,最终得到 C‘ 个通道(作者认为C个通道中存在语义冗余,所以通过聚类使得每一个通道代表图像的不同语义特征)。

4.2.2 提取表格表征

本文用 FT-Transformer 提取表格表征,,其中D是属性个数,E是表征的维度。作者假设前 p 个属性是数字变量  ,剩下的 q 个属性是分类变量 

4.2.3 对齐两种模态

直接在两种模态之间建立关系是不可行的,因为模态之间的差异性和语义的不一致性。但是如果两个样本的属性或者通道表征方面有相似性,那么可以说明他们的语义是相似的。

针对总共 N 个样本,对第 i 个通道,作者计算样本间的通道余弦相似度 S_i^I 。然后针对第 j 个属性,计算样本间的属性余弦相似度 S_j^T 。S_i^I 和 S_j^T 的维度都是 \mathbb{R} ^{N * N}。然后,作者计算花费矩阵 C:  (这个花费矩阵可以理解为通道 i 和属性 j 之间的某种关联)。

这里引入一个概念,最优传输(optimal transport),可以看看这个文章,只要能理解这个事情是干什么的就行,具体怎么求解有很多现成可用的方法:

Optimal Transport入门简述 | Lemon's Blog

然后,本文对齐两种模态的方式就转化为一个最优传输问题,表格属性就是要传输的东西,图像通道是目标,然后花费矩阵 C 就是传输的代价或者奖励。借助下面的公式(就是最优传输的公式表示),求解出一个转移矩阵 ,这个 T 就代表本文认为的 表格的不同属性(一共D种属性) 对 图像的不同通道(一共 C‘ 个通道) 的关联程度。 

然后之前在 4.2.1 章节提取通道表征的时候对相似通道聚类了,导致通道数目 从 C 到 C’, 现在根据聚类的结果把矩阵 \hat{T} 再转变为  ,就得到了所有的表格属性到图像通道的映射关系。

4.3 利用辅助信息学习 Learning with Auxiliary Information

经过上述最优传输求解,本文实现了对有效表格属性的选择,然后接下来作者通过最大化图像和表格模态的互信息来将表格中专家知识迁移到图像模型中,也可以说是图像表征中。如图3的黑色箭头右边部分所示。

具体而言,本文使用 4.2.3 求解的转移矩阵 T 对图像通道分配权重(有点像attention那种),这样可以直观体现出与对应的图像通道有关联的表格属性(前面说了,本文认为表格中并不是所有属性都对图像的预测有用,只有部分属性有用,所以作者通过 T 选择出有效的高权重属性)

然后作者使用一个分类器,以图像通道为输入,预测对应的表格属性(这个预测的groundtruth标签就是转移矩阵 T ,就是说预测与图像通道最相关的表格属性)。通过这种方式,作者增强了图像网络对表格属性数据的理解,并且将表格信息转移到了图像模态中。作者说这样还能够有效处理缺失表格数据的问题(我的理解是,这种预测,可以只对有表格数据的样本进行训练,没有表格数据的就不参与训练,这样就可以不受缺失表格模态数据的影响)

4.4 CHARMS的损失函数

这其实是论文中的第 4.3 章最后一部分,博主单独拆出来了,为了理清脉络。

如下面公式7所示,CHARMS的损失函数由两项组成:

第一项就是模型的标签预测损失,用图像表征预测图像标签,用表格表征预测图像标签。(在具体实验中,图像表征网络 f 和表格表征网络 g 是分开独立训练的。g 的训练目的是为了得到更好的表格表征,以便计算 S^T。)

第二项的目标是从表格数据中迁移信息到图像模态中。其中 p 是表格的第 p 个数字属性,T_p 是转移矩阵中与 第p个属性对应的图像通道(这一步就是本博客 4.3 部分第二段介绍的给图像通道分配权重)。同理,q 是表格的第 q 个分类属性,T_q 是转移矩阵中与 第 q 个属性对应的图像通道。\mathcal{L}_{i2t} 中的两项实际上是用图像表征预测每一种表格属性(就是本博客 4.3 部分的最后一段),MSE是预测数字属性的均值方差损失 (mean square error loss for numerical attributes),CE是预测分类属性的交叉熵损失(cross entropy loss for categorical attributes)。

注意,公式8中 \phi 是指保留最后一层分类层的图像模型(就是ResNet),而本博客 4.2.1 部分的 \phi_{-1} 是去掉了分类层的图像模型。

本文的实验及分析:

5.1 实验设置

5.1.1 数据集和评估指标

本文一共使用了6个数据集,4个分类任务(用accuracy评估模型性能),两个回归任务(用root mean square error评估模型性能),如下表所示。具体数据集详情请参阅论文原文。

5.1.2 实现细节

CHARMS代码基于pytorch,在单GPU上训练。

5.1.3 分类和回归实验结果

如下表1所示,可以看出(文中没有说明,但是博主推测,LGB和RTDL应该是只用表格数据的方法,ResNet是只用图像数据的方法,其他的是多模态方法):

  • CHARMS在所有数据集上取得了最好的性能;
  • 与只使用图像数据训练的方法ResNet相比,现有的多模态对比方法甚至没有取得更好的结果,有些甚至性能下降了。作者认为可能是由于他们从表格数据中提取了coarse的指导信息,所以指导歪了;
  • CelebAPawpularity数据集上, 表格数据对于分类的作用没有图像大,但是CHARMS仍然提高了图像模态的分类性能。说明本文的方法即使在表格数据比较弱的情况下,也能成功从表格中提取知识提高图像模型的性能;

5.1.4 可视化实验

为了验证最优传输可以将图像通道和表格属性匹配起来,本文进行了可视化实验。使用GradCAM来对OT进行可视化。从下表2可以看出:

  • CelebA, CHARMS可以识别出相同图像的不同表格属性;
  • PetFinder-adoption, CHARMS可以在不同图像间识别同类的表格属性;

上述结果明确地展示了OT将图像通道与其相应的表格属性精确对齐的能力,从而肯定了本文将表格知识传递到图像模型中的方法的正确性。这一发现为本文方法的基本原理提供了实质性支持,并强调了精确调整各种模式分布的重要性,以促进有效的知识转让。

5.2 对比实验分析

作者绘制了训练阶段中,不同模型所包含互信息的变化,如下图3所示。可以看出,随着训练进行,CHARMS模型所学习的表征包含的互信息逐渐提高。

另一方面,CLIP[2]模型在图像和文本对齐上表现出了较强的性能,并且有最近的研究表明,CLIP可以将表格数据转变为文本数据,来实现分类。因此,本文用CLIP做了对比实验。为了适用于CLIP模型,本文将表格数据转化为文本数据,比如“length: 16”,然后输入CLIP的文本编码器。实验结果如下表3所示。

CLIP-LP表示CLIP的两个编码器都固定参数,只训练分类头。CLIP-FT表示fine-tune整个CLIP模型。

从实验中可以看出,CLIP的性能并不理想。这可能是由于在表格数据中,每一列都有其独特的含义,直接利用它作为CLIP的输入会导致某些信息的丢失。例如,在SUN数据集上,属性"wood(not part of a tree)"可能不是一个非常重要的特征。但此属性转换为文本格式时,其字符长度趋于较长,可在信息中引入冗余。

5.3 消融实验

这部分实际上是论文5.2章节的最后一部分,博主拿出来了。作者首先替换不同的backbone网络进行实验,结果如图4所示,CHARMS 的性能保持稳定,没有大幅改变。

然后,作者对不同聚类数目进行了实验,结果如表4所示,聚类数目对CHARMS的性能没有太大影响,说明模型对超参数的不同值具有鲁棒性。

5.4 与注意力机制比较

这一部分在论文的附录中,但是博主认为比较关键,因此放在了这里。

因为在衡量两个变量之间的关系的时候,最直观的想法就是用attention来学习权重,但是本文却使用了最优传输方法,学习传输矩阵来作为图像通道和表格属性之间的权重衡量。因此,本文同时对使用attention的方式进行了实验。

上述公式中 \mathcal{T} 是一个两层的MLP网络,对初始的图像表征进行降维,然后再重新放大到其原始尺寸,从而对图像的不同通道进行进行加权。

结果如下图7所示,可以看出使用attention的方法并没有取得更好的结果。并且在DVM数据集(129个类别的分类任务)上效果很差,作者认为,这可能是因为注意力方法对不同的属性赋予了不同的关注,混淆了主干网络,导致整体任务性能下降。

总结:

本文提出了CHARMS方法,将相关的表格知识传递给图像。CHARMS在传输过程中利用表格数据作为辅助信息,从而能够将表格数据中的专家知识传递给图像。由于并非表格数据中包含的所有属性都与相应的图像相关,CHARMS利用最佳传输使属性与通道对齐,从而加强了传输过程中的图像和表格的相关性。

实验结果表明,CHARMS在跨模式传输方面优于以往的方法,CHARMS使得人们能够用表格指令对学习到的视觉嵌入空间进行有见地的解释。作者希望这项工作能推动在现实世界问题中遇到的多模态问题的挑战,尤其是表格数据处理和知识迁移方面。

个人理解和问题:

  1. 作者在文中多次强调,本文考虑的情况是,在训练过程中使用表格数据增强图像模型和图像表征的学习,但是在推理过程中缺失表格数据。一个问题是,为什么要设定这样的情景,有什么特定的应用场景吗?另一个问题是,如果在推理过程中也借助表格数据(少量的,高质量的),是否能进一步提高推理的性能呢?
  2. 比较关键的一个问题,关于为什么不用注意力机制衡量图像通道和表格属性之间的关系。本文虽然在附录中进行了对比实验,但是只使用了一种最简单的MLP实现的注意力机制。如果用Transformer,cross-attention之类的呢?结果会不会不一样?
  3. 另外,与CLIP的对比中,将表格数据转化为文本数据的时候,直接将表格的列名和值用冒号连接,这样的方式太简单了。如果考虑一些简单的propmt,比如:“The car length is 16 m.”,是否效果会更好呢?
  4. 但是本文能够在大环境都“遇事不决attention”的情况下,想到使用 optimal transfer 这种方法来衡量图像和表格之间的关系,确实很好。
  5. 本文的论文写作很好,逻辑清晰,表述明白,语言和变量的表示都很简洁。做了什么,为什么这么做,都解释地很详细,读起来非常令人愉悦。

参考文献:

[1] Artemiou, A. Using mutual information to measure the predictive power of principal components. In Festschrift in Honor of R. Dennis Cook: Fifty Years of Contribution to Statistical Science, pp. 1–16. Springer, 2021.

[2] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, pp. 8748–8763, 2021.

  • 11
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值