《Multimodal Table Understanding》(多模态表格理解)论文分享

论文地址:https://arxiv.org/pdf/2406.08100
代码地址:https://github.com/SpursGoZmy/Multimodal-Table-Understanding
当大家进入研究生阶段后,常常需要阅读以及汇报论文,大家都会很头疼,我就以《Multimodal Table Understanding》这篇中科院发表在ACL2024上的论文为例子,跟大家说一下要如何快速精简的汇报一篇论文。(包含ppt及讲稿)

零、框架梳理

一般汇报论文都需要分为四个部分进行介绍:

  • 一、研究背景
  • 二、研究方法
  • 三、实验结果
  • 四、总结和讨论

一、研究背景

首先,我们来看看他的研究背景,从重要性来看,表格被广泛应用于金融分析、科学研究和政府报告等领域,用于存储和展示数据。在局限性上看,大部分模型依赖于将表格转换为特定文本序列(如Markdown或HTML)作为模型输入,不能直接理解表格。而且在实际应用中,高质量的文本格式难以获取,而表格图像则更容易获取。
在这里插入图片描述

二、研究方法

我们再来看他的研究思路,本文研究主要是探索多模态表格理解的问题,为此,作者构建了一个大规模数据集MMTab,和Table-LLaLA模型,并与其他的模型进行了比较。
在这里插入图片描述
我们具体来看一下这个MMTab数据集是什么,从数据规模和多样性来看:MMTab数据集包含150K个预训练样本(MMTab-pre),232K个指令调整样本(MMTab-instruct),以及49K个测试样本(MMTab-eval),覆盖了17个内部测试基准和7个外部测试基准。且数据集涵盖了多种表格结构、样式和领域,包括简单的平面表格和复杂的具有合并单元格和层级标题的表格。除了9个学术任务(如表格问答、表格事实验证和表格转文本生成)外,MMTab还包含6个基本表格结构理解任务,如表格大小检测、单元格提取、单元格定位、合并单元格检测和行/列提取,以获取更加精确的模型。
在这里插入图片描述
介绍完了MMTab是什么,我们接下来看一下作者是如何构建的,这就是一个样本的具体构建方式,首先是先试用python脚本将文本表格转化为高质量的表格图像。然后就是利用GPT-4生成新的指令模板,并将其与任务相关的输入(如表格相关问题)结合,以产生最终的输入请求.在做完这两步后,我将渲染的表格图像和处理后的输入输出对组合成统一格式的多模态指令调整样本。并对他进行数据增强,包括表格级增强、指令集增强、任务级增强。最后在一个样本中,就包含表格、任务描述、任务输入、输出格式、思维链、最终的答案。
在这里插入图片描述
说了这么多,我们来看一个具体的样本示例,比如这里给了一个excel表,并且包含了任务描述说,这是一个表格图片,你能够计算这个表的行数和列数吗输出格式就是,形成一个JSON格式的最终答案,使用这个结构,行的数量为m,列的数量为n。然后思维链就是这是一个11行3列的表。最终答案为行的数量是11,列的数量为3.
在这里插入图片描述
讲完了MMTab数据集的构建,我们再来讲一下这个作者提出的Table-LLaVA模型,模型架构包含三个模块,分别是视觉编码器,它是使用预训练的ViT模型,用于将输入图像编码为视觉特征。视觉-语言连接器,它是使用两层 MLP(多层感知机),将视觉特征映射到词嵌入空间。还有它的骨干LLM:使用Vicuna 模型用于处理视觉和文本特征的组合,生成响应。讲完了它的架构,我们来讲一下他的训练范式,首先是预训练阶段:使用额外的表格识别任务在 MMTab-pre 数据集上进行预训练,要求模型生成包含表格结构和内容的文本序列。然后是指令微调阶段,在 MMTab-instruct 数据集上进行微调,以赋予模型处理多模态表格任务的能力。
在这里插入图片描述

三、实验结果

然后再来看看他的实验概览,作者主要就是这个表格上的实验,包括像表格问答、事实验证和表格转文本生成等等的十几个任务。然后我们来看看他的实验结果,这是在 11 个学术任务上的表现,可以发现他的性能在大部分任务上都比现有的一些多模态大模型和大模型要好。这是在6 个表格结构理解任务上的实验结果,发现他的性能全部优于其他的大模型。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
作者还进行了消融实验,这里去掉了mmtab预训练,模型效果都下降了好几个点。还去掉了mmtab的微调,可以看到模型效果下降剧烈。可以说明,模型进行的预训练和微调对于表格理解都起到了促进的作用。
研究者还比较了Table-LLaVA在非表格任务上的表现。结果显示,MMTab数据的加入非但没有削弱模型在非表格任务上的性能,反而起到了促进作用。这表明表格理解能力已经成为多模态大模型的一项基础性、不可或缺的能力。
在这里插入图片描述

四、总结和讨论

最后来讲讲他的研究总结,
他的优点是,首次系统地探索了多模态表格理解问题,并构建并发布了一个大规模数据集MMTab,涵盖了多种表格和任务,还开发了Table-LLaVA模型,显著优于多个强MLLM基线。
但是他也存在明显的缺点,就是数据集主要集中在英文表格场景,未考虑多表格场景和更广泛的语言覆盖。而且数据集中的表格图像是自动生成的高质量图像,但现实世界中的表格图像可能质量较低。还有输入图像分辨率相对较低,可能限制了模型性能的上限。
在这里插入图片描述
最后,谈一谈有可能的改进,就是现实场景的表格图像可能是低质量的,比如图片模糊、手写表格、表格污损。为了进一步弥合学术研究与真实的应用场景之间的差距,未来可以从野外收集更多的表格图像,并构建相应的指令跟踪数据,以构建更加强大的Table-LLaVA。
Table-LLaVA 模型的分辨率相对较低(336*336),模型性能上限可能会受到限制。未来使用 MMTab数据集搭配 LLaVA-Next、Monkey 等高分辨率MLLM 的效果值得探索。
在这里插入图片描述
以上就是一篇论文要如何进行汇报,以及展示出PPT以及具体的讲稿,希望对大家有所帮助。

### 关于多模态数据采集的研究 多模态数据采集涉及多种媒介的数据收集,这些数据可以来自不同的感官渠道,如视觉、听觉和其他形式的信息输入。为了全面理解人类交流和社会互动中的复杂现象,研究者们强调了采用多模态视角的重要性[^1]。 #### 多模态语料库构建的方法论基础 在具体实践中,多模态语料库通常依赖于录音、录像以及文字转写的组合来进行数据采样。这种方法能够捕捉到参与者之间自然发生的对话及其伴随的行为表现,从而提供更加丰富的分析材料。对于更深入的认知科学研究来说,还可以借助诸如fMRI(功能性核磁共振成像)、ERP(事件相关电位)或者PET(正电子发射断层扫描)等技术获取大脑功能活动方面的补充信息。 #### 协作SLAM中的大规模多模态数据集应用实例 除了社会科学领域外,在计算机科学特别是机器人技术和增强现实等领域也广泛采用了类似的思路。例如,“S3E”项目就创建了一个专为解决同步定位与建图(SLAM)挑战而设计的大规模多模态数据库。该数据集中包含了大量由不同传感器获得的空间位置及环境特征描述,有助于推动自动化系统的开发进程[^2]。 #### 医疗影像处理里的创新解决方案探索 另外值得注意的是,在医疗健康行业内部同样存在着对高质量多源异构资料的需求。一项发表于CVPR'24上的研究表明,研究人员成功地运用深度学习算法实现了跨模式医学图像之间的精准配准。这项工作不仅提高了诊断效率而且减少了误诊率的发生概率,展示了人工智能辅助诊疗的巨大潜力[^3]。 ```python import numpy as np from sklearn.decomposition import PCA def preprocess_multimodal_data(data): """ 对多模态数据进行预处理 参数: data (list): 含有不同类型观测值的列表 返回: processed_data (array-like): 经过降维后的统一格式数组 """ pca = PCA(n_components=2) processed_data = pca.fit_transform(np.array(data)) return processed_data ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值