StructLM：处理医学数据表格与统一医学术语多样性的桥梁

StructLM：处理医学数据表格与统一医学术语多样性的桥梁

提出背景
StructLM 框架
StructLM 组成
怎么训练的专属模型？
StructLM 医学应用

在这里插入图片描述
StructLM在各种结构化和非结构化知识任务上的性能。

这个模型可以理解和利用表格、知识图谱、数据库和文本来回应人类查询。

图中显示了StructLM在18个结构化知识定位（SKG）任务上的表现，与ChatGPT和之前的最优模型（SoTA）相比。

在这些任务中，StructLM在7项任务上实现了新的SoTA成就，表现超越了ChatGPT和之前的专业模型。

传统上，用户需要编写程序来与表格、数据库、知识图谱等结构化数据进行交互。

这要求用户掌握SQL、SPARQL等特定领域的语言。

最近，研究人员探索了使用自然语言自动化与结构化数据接口的可能性，以启用问答、摘要、事实验证等潜在用例，所有这些都基于结构化知识源。

这项努力可以降低终端用户访问大量结构化数据的门槛。

尽管大型语言模型（LLMs）在处理纯文本方面已展示出卓越的能力，但它们在解释和利用结构化数据方面的熟练度仍然有限。

我们的调查揭示了LLMs在处理结构化数据方面的显著不足，例如，ChatGPT在与最先进（SoTA）模型的比较中平均落后35%。

为了增强LLMs中的结构化知识定位（SKG）能力，我们开发了一个包含1.1百万示例的综合指令调整数据集。

利用这个数据集，我们训练了一系列基于Code-LLaMA架构的模型，称为StructLM，参数规模从7B到34B不等。

我们的StructLM系列在18个评估数据集中的14个上超过了特定任务的模型，并在7个SKG任务上建立了新的SoTA成就。

此外，StructLM在6个新的SKG任务上展示了出色的泛化能力。

与预期相反，我们观察到模型规模的扩大只提供了边际效益，StructLM-34B相比于StructLM-7B只显示了轻微的改进。

这表明结构化知识定位单纯的叠加规模无意义，需要更多创新的设计才能推向新的水平。

在这里插入图片描述
图中展示了两个例子：一个是给定数据表后回答问题的情况，另一个是未见任务的评估，说明了模型如何在没有直接指导的情况下处理新的查询类型。

它不仅在单一任务上表现优秀，而且能够在从未见过的相关任务上展现出强大的推广能力。

这两个例子展示了输入类型可能包括知识图谱、表格、数据库架构等，而输出类型可能是代码、正式语法、文本（代码转换）、摘要、单一答案、布尔值等。

子解法1：上下文表示学习（训练专属模型）：通过特定训练方法学习表格数据的上下文表示，例如PTab和MultiHiertt在学习结构化数据时融合语义信息。
子解法2：关系感知机制：RASAT通过与Transformer结合的关系感知自注意力机制，利用不同的关系结构解决SQL查询问题。
子解法3：统一序列处理：USKG首次将多个SKG任务统一为序列到序列格式，实现了在相同数据混合中的聚合。
子解法4：强化语言模型提示：StructGPT等通过在强大的LLMs上应用提示框架解决SKG任务，提高了任务的鲁棒性和准确性。
子解法5：指令调整增强：通过指令和输出对的额外训练，提高了LLMs的可控性和预测性，更接近用户期望。

历史问题及其背景：

举个例子：

假设一个用户想从一个数据库中查询1982年伊利诺伊州州长选举的获胜者和票数差距。

在这里插入图片描述
这张图是一个韦恩图，展示了结构化知识类型和任务的分解。

在内圈，我们可以看到对数据集中结构化输入的不同类别的粗略分解，包括QA（问答）、表格、知识三元组、本体、SQL/ExO生成（SQL和执行器输出生成）以及对话状态追踪。
外圈则展示了代表这些结构化知识类型的任务，例如问答、事实验证、总结以及API调用生成和SQL生成。

此外，这个图还显示了一个较大区域，标记为“General Instruction-following”，表示除了结构化知识任务外，还包括了大量的普通指令跟随数据，这些数据来自SlimOrca。

这表明研究者在构建数据集时不仅考虑了特定的结构化知识类型，还包括了用于训练模型遵循指令能力的通用数据。

方法论，包括数据策展、指令微调方法以及训练和评估。

子解法1：数据集选择和分组：选择25个SKG任务，并将它们分为数据到文本生成、基于表格的问答、知识支撑的对话、事实验证、SQL/领域特定语言处理以及数学推理六个组别，以覆盖广泛的结构化数据任务。
子解法2：指令微调方法：通过系统提示、指令、输入和输出的组合来构建训练样本，并为每个数据集编写多种指令变体。
子解法3：训练和评估：以CodeLlama-Instruct模型家族为基础进行微调，并遵循USKG的结构化数据线性化约定，采用不同的截断方案以优化训练和推理过程。

之所以用这个解法，是因为问题的某个特征：