AI大语言模型在医学文本提取结构化信息中的应用_structured prompt interrogation and recursive extr-CSDN博客

本文链接：https://blog.csdn.net/simoncool23/article/details/133784649

知识抽取（Knowledge Extraction, KE）是一种从自然语言文本中提取结构化的知识，并将其存储在知识库中的过程。知识抽取的目标是，通过自动或半自动的方式，将文本数据中的实体、属性、关系、事件等知识元素识别出来，并将其转换为一种标准化和可查询的格式，如三元组、图谱、本体等。知识抽取的挑战是，文本数据的类型、格式、领域、质量等方面存在很大的差异和复杂性，导致知识抽取的任务需要不同的方法和技术，而且很难保证抽取结果的准确性和完整性。知识抽取的现有方法主要分为两类：基于规则的方法和基于机器学习的方法。基于规则的方法依赖于人工编写的规则或模板，来匹配和提取文本中的知识。基于机器学习的方法依赖于大量的标注数据，来训练和应用模型，来预测和提取文本中的知识。

大语言模型（Large Language Models, LLMs）是一种利用大量的文本数据来训练的深度神经网络，它可以生成或理解自然语言，具有强大的表达能力和泛化能力。典型的大语言模型就是ChatGPT（以及GPT4.0）等。

LLMs在零样本学习（Zero-Shot Learning, ZSL）方面有很大的潜力，即在没有任何训练数据的情况下，执行新任务。LLMs可以通过接收一些自然语言提示（Natural Language Prompts, NLPs），来完成不同类型和领域的知识抽取任务。

论文标题：Structured prompt interrogation and recursive extraction of semantics (SPIRES): A method for populating knowledge bases using zero-shot learning

论文地址：https://arxiv.org/abs/2304.02711

这篇论文提出了一种利用大语言模型（LLM）进行零样本学习的方法SPIRES,它可以从自然语言文本中提取结构化知识。SPIRES利用预训练语言模型和简单规则生成解析知识抽取提示。

SPIRES利用预训练的语言模型（GPT-3+）来执行ZSL任务的过程是：

图1：SPIRES架构，其输入是文本与预期的结构化模板，通过OntoGPT产生prompt与GPT3+互动，结合公开数据库生成，产生输入文本中包含的结构化知识

首先，SPIRES根据用户提供的知识模式（Knowledge Schema, KS），生成一个自然语言提示（Natural Language Prompt, NLP），用于向GPT-3+提出问题。知识模式是一种定义了知识元素和关系的结构化表示，如三元组、图谱、本体等。自然语言提示是一种用自然语言表达的问题，用于引导GPT-3+返回符合知识模式的答案。

然后，SPIRES将自然语言提示和输入文本一起发送给GPT-3+，并接收GPT-3+返回的答案。输入文本是包含了目标知识的自然语言文本，如文章、报告、病历等。答案是GPT-3+根据自然语言提示和输入文本生成的自然语言文本，包含了符合知识模式的知识元素和关系。

接着，SPIRES解析GPT-3+返回的答案，将其转换为结构化的知识，并存储在知识库中。结构化的知识是一种符合知识模式的数据格式，如三元组、图谱、本体等。知识库是一种用于存储和查询结构化知识的系统，如数据库、文件、内存等。

最后，SPIRES递归地执行上述步骤，直到完成所有的知识抽取任务。

递归地执行是指SPIRES可以根据已经抽取出来的知识元素和关系，生成新的自然语言提示，并重复上述步骤，从而处理复杂和嵌套的知识抽取任务。

文献提到了以下几个示例：

食物配方的提取：SPIRES从食谱网站上的文本中提取出食物名称、原料、做法等信息，并将其存储为三元组形式。

多物种细胞信号通路：SPIRES从生物学文献中提取出不同物种之间的细胞信号通路，并将其存储为图谱形式。

疾病治疗：SPIRES从医学文献中提取出疾病名称、治疗方法、药物名称等信息，并将其存储为本体形式。

多步药物机制：SPIRES从药理学文献中提取出药物名称、作用靶点、作用机制等信息，并将其存储为多层次的图谱形式。

化学物质导致疾病：SPIRES从环境健康文献中提取出化学物质名称、暴露途径、导致的疾病等信息，并将其存储为因果图谱形式。

SPIRES的优势是适应性强,可以处理不同领域和表示形式,利用上下文消歧义。实验结果表明，SPIRES在准确率、召回率和F1值方面都优于或接近其他方法，证明了其有效性和通用性。相比现有关系抽取方法,SPIRES更为灵活,无需训练数据即可处理新任务。

因此，AI大语言模型在医学文本信息提取方面具有以下优势: