【论文阅读】Tabular Insights, Visual Impacts: Transferring Expertise from Tables to Images

本文链接：https://blog.csdn.net/me_yundou/article/details/140761692

本博客系博主根据个人理解所写，非逐字逐句翻译，预知详情，请参阅论文原文。如有理解不当的地方，欢迎大家一起讨论。

论文标题：Tabular Insights, Visual Impacts: Transferring Expertise from Tables to Images

作者：Jun-Peng Jiang 1 2, Han-Jia Ye 1 2, Leye Wang 3, Yang Yang 4, Yuan Jiang 1 2, De-Chuan Zhan 1 2；

School of Artificial Intelligence, Nanjing University, Nanjing,China.
National Key Laboratory for Novel Software Technology, Nanjing University, Nanjing, China.
Key Lab of High Confidence Software Technologies (Peking University), Ministry of Education & School of Computer Science, Peking University, Beijing, China.
School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing, China.

收录会议：ICML 2024 Spotlight；

论文下载链接：Tabular Insights, Visual Impacts: Transferring Expertise from Tables to Images | OpenReview

代码链接：https://github.com/RyanJJP/CHARMS

摘要：

在机器学习中，在不同的模态数据之间迁移知识（transfer knowledge）受到了越来越多的关注。

本文解决的问题是：在推断过程中无法获得表格数据的情况下，利用难以获取的、蕴含丰富专家知识的表格数据来增强基于图像的预测。

该问题的主要挑战在于将复杂的表格数据准确映射到视觉内容上，以及必须为数字（numerical）和分类（categorical）表格属性制定不同的策略。

本文提出一个方法，使用最优传输对齐图像通道和表格（CHannel tAbulaR alignment with optiMal tranSport (CHARMS)）。这个方法在图像通道和表格属性之间建立对齐关系,从而选择性地传递表格属性中与视觉特征相关的知识。

具体而言,CHARMS度量模态之间的相似性分布,以有效区分和转移图像相关的表格特征,重点关注形态特征,增强视觉分类器的能力。通过最大化图像通道和表格特征之间的互信息（mutual information），提取数字和分类表格属性中包含的知识。

实验结果表明，CHARMS不仅提高了图像分类的性能，而且通过有效利用表格知识提高了可解释性。

本文动机及现有方法的问题：

多模态学习中不同模态的数据所包含的知识和信息量不同，而且不同模态的数据获取难度不同（比如医疗领域，器官的医学图像可以利用仪器大量获取，但是医生的专业诊断信息很难获取）。因此，多模态迁移学习（cross-modal transfer learning）应运而生，实现在训练过程中借助多模态数据从一个模态转移专家知识到另一个模态。
表格数据，通常包含大量的专家知识，但是没有被充分利用（因为表格是结构化数据（structured data），不同于图像文本等非结构化数据，不好处理）。所以本文研究将表格数据中的专家知识迁移到图像模型中，来增强图像分类的性能。
现有的跨模态迁移学习方法大多是关于图像、文本、音视频的，不能直接适用于表格数据。
针对表格数据的处理，早期是使用传统的机器学习方法，比如决策树，支持向量机，随机森林等。但是这些方法依赖于人工的特征工程和数据清洗，难以扩展。
随着深度学习的发展，表格数据可以单独看做一个模态，作为模型输入进行端到端的模型设计，实现了更好的效果。但是实际中，相比于图像文本等，表格数据的数据量是非常少的，所以本文考虑的场景是：在训练中，借助蕴含丰富专家知识的表格数据，来指导图像模型的学习，期望在推理阶段没有表格数据的情况下，也能取得很好的图像模型分类结果。

本文的研究重点：

并不是所有的表格属性（attributes）都对相应的图像学习有作用，所以本文先识别哪些表格属性需要迁移，然后将所选择的属性中的知识迁移到视觉模型中。
针对表格中的数字（numerical）和分类（categorical）属性，本文设计的模型可以直接处理这两种不同类型的表格属性，并且保持模型的可解释性。

本文主要贡献：

本文强调了将知识从表格转移到图像的重要性，因为这可以提高性能同时更好地理解模型，在缺少表格数据的情况下。
本文提出了CHARMS模型，将相关的表格知识转移到图像中。它利用最佳传输（optimal transport）来对齐表格属性和图像通道，并在传输过程中利用表格数据作为额外信息辅助模型的学习。
实验结果表明，CHARMS有效地利用表格知识来增强视觉分类模型。此外，本文的方法为所学习的视觉表征向量提供了深入的解释性。