AI大语言模型在医学文本提取结构化信息中的应用

知识抽取(Knowledge Extraction, KE)是一种从自然语言文本中提取结构化的知识,并将其存储在知识库中的过程。知识抽取的目标是,通过自动或半自动的方式,将文本数据中的实体、属性、关系、事件等知识元素识别出来,并将其转换为一种标准化和可查询的格式,如三元组、图谱、本体等。知识抽取的挑战是,文本数据的类型、格式、领域、质量等方面存在很大的差异和复杂性,导致知识抽取的任务需要不同的方法和技术,而且很难保证抽取结果的准确性和完整性。知识抽取的现有方法主要分为两类:基于规则的方法和基于机器学习的方法。基于规则的方法依赖于人工编写的规则或模板,来匹配和提取文本中的知识。基于机器学习的方法依赖于大量的标注数据,来训练和应用模型,来预测和提取文本中的知识。

大语言模型(Large Language Models, LLMs)是一种利用大量的文本数据来训练的深度神经网络,它可以生成或理解自然语言,具有强大的表达能力和泛化能力。典型的大语言模型就是ChatGPT(以及GPT4.0)等。

LLMs在零样本学习(Zero-Shot Learning, ZSL)方面有很大的潜力,即在没有任何训练数据的情况下,执行新任务。LLMs可以通过接收一些自然语言提示(Natural Language Prompts, NLPs),来完成不同类型和领域的知识抽取任务。

论文标题:Structured prompt interrogation and recursive extraction of semantics (SPIRES): A method for populating knowledge bases using zero-shot learning

论文地址:https://arxiv.org/abs/2304.02711

这篇论文提出了一种利用大语言模型(LLM)进行零样本学习的方法SPIRES,它可以从自然语言文本中提取结构化知识。SPIRES利用预训练语言模型和简单规则生成解析知识抽取提示。

SPIRES利用预训练的语言模型(GPT-3+)来执行ZSL任务的过程是:

图片

图1:SPIRES架构,其输入是文本与预期的结构化模板,通过OntoGPT产生prompt与GPT3+互动,结合公开数据库生成,产生输入文本中包含的结构化知识

首先,SPIRES根据用户提供的知识模式(Knowledge Schema, KS),生成一个自然语言提示(Natural Language Prompt, NLP),用于向GPT-3+提出问题。知识模式是一种定义了知识元素和关系的结构化表示,如三元组、图谱、本体等。自然语言提示是一种用自然语言表达的问题,用于引导GPT-3+返回符合知识模式的答案。

然后,SPIRES将自然语言提示和输入文本一起发送给GPT-3+,并接收GPT-3+返回的答案。输入文本是包含了目标知识的自然语言文本,如文章、报告、病历等。答案是GPT-3+根据自然语言提示和输入文本生成的自然语言文本,包含了符合知识模式的知识元素和关系。

接着,SPIRES解析GPT-3+返回的答案,将其转换为结构化的知识,并存储在知识库中。结构化的知识是一种符合知识模式的数据格式,如三元组、图谱、本体等。知识库是一种用于存储和查询结构化知识的系统,如数据库、文件、内存等。

最后,SPIRES递归地执行上述步骤,直到完成所有的知识抽取任务。

递归地执行是指SPIRES可以根据已经抽取出来的知识元素和关系,生成新的自然语言提示,并重复上述步骤,从而处理复杂和嵌套的知识抽取任务。

文献提到了以下几个示例:

食物配方的提取:SPIRES从食谱网站上的文本中提取出食物名称、原料、做法等信息,并将其存储为三元组形式。

多物种细胞信号通路:SPIRES从生物学文献中提取出不同物种之间的细胞信号通路,并将其存储为图谱形式。

疾病治疗:SPIRES从医学文献中提取出疾病名称、治疗方法、药物名称等信息,并将其存储为本体形式。

多步药物机制:SPIRES从药理学文献中提取出药物名称、作用靶点、作用机制等信息,并将其存储为多层次的图谱形式。

化学物质导致疾病:SPIRES从环境健康文献中提取出化学物质名称、暴露途径、导致的疾病等信息,并将其存储为因果图谱形式。

SPIRES的优势是适应性强,可以处理不同领域和表示形式,利用上下文消歧义。实验结果表明,SPIRES在准确率、召回率和F1值方面都优于或接近其他方法,证明了其有效性和通用性。相比现有关系抽取方法,SPIRES更为灵活,无需训练数据即可处理新任务。

因此,AI大语言模型在医学文本信息提取方面具有以下优势:

1)可以处理多种类型和格式的文本,包括结构化数据、图像、公式等,提取出其中的关键信息。这比传统方法可以处理的文本类型更加丰富。

2)基于海量文本进行预训练,使得语言模型可以更好地理解医学文本的语义和上下文。这为后续的零样本学习奠定基础。

3)利用预训练模型和零样本学习技术,可以不依赖大量手工标注的训练数据,就直接适应新的医学文本信息提取任务。

4)可以充分利用上下文信息来消除歧义,进行推理,生成更准确、完整的结构化医学知识。

但是大语言模型也存在以下挑战:

1)需要大量计算资源来训练复杂的模型架构,也需要足够的算力来使用预训练好的模型。这增加了技术门槛。

2)结果的可解释性较差,不容易追溯模型的推理链条,存在“黑箱”问题。这会影响模型的可信度。

3)当输入文本存在偏差时,容易产生错误结果,需要结合领域知识进行验证。

总体来说,SPIRES这类基于大语言模型的零样本学习方法,可以极大地帮助医务工作者快速整理和获取相关知识,提高工作效率。也可以帮助患者正确理解医学文本信息,增强健康管理能力。如果模型偏差得以控制,可以促进医学知识的共享和传播,推动医疗水平的提高。其应用前景广阔,具有重要的社会价值。

大语言模型(LLM)|ChatGPT相关文章(以下点击可阅读):

医疗AI与GPT | 梳理全球医疗大模型

1个小时利用ChatGPT完成神经外科领域的完全虚构的论文!AI写论文的逼真程度令人震惊

精选32篇AI大模型&GPT+医学的论文(免费领取)

以色列一对师生借助ChatGPT,1小时完成1篇论文糖尿病论文

利用ChatGPT,这位医生4个月内完成16篇论文,且已发表5篇!医生科研开启加速模式!

AI论文 | ChatGPT在放射医学领域的应用探索

AI论文 | ChatGPT在医学中的应用概述:应用、优势、局限性、未来前景和伦理思辨

AI论文 | GPT-4 对诊断罕见眼病有什么作用?

AI论文 | 从临床和科研场景分析ChatGPT在医疗健康领域的应用可行性

AI论文 | ChatGPT可以撰写研究文章吗?以人群层面疫苗有效性分析为例

北医三院:ChatGPT用于用药咨询行不行?

北京协和医院:大型语言模型在重症医学中的应用与挑战

ChatGPT在PubMed上的发表数量超过1000篇:展望未来之路

Nature:大语言模型构建的AI医生,比人类医生更出色

GPT辅助论文降重教程,100%降至13%(实用指令,赶紧收藏)

国自然基金委:在各科学部设立科普类项目!面青地等将科普成果列入项目成果;资助强度较大项目,应围绕项目开展科普工作

2023年国自然医学科学学部人工智能及大模型相关课题项目汇总

科研之心,致力于探索AI大模型与科研结合。科研之心为您提供最新的AI资讯、最实用的AI工具、最深入的AI分析,帮助您在科学研究中发掘AI的无限潜力。

欢迎关注,保持交流!

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
AI模型的训练通常涉及以下几个步[^1]: 1. 数据收集:集大量训练数据,包括输入和对应的输出标签。 2. 数据预处理:对数据进行清洗标准化和转换,以便于型的训练和使用。 3. 模型设计:适合任务的模型架构,如深神经网络(如Transformer、BERT等)。 4. 模型训练:使用训练数据对模型进行训练,通过反向传播算法不断调整模型参数,使其逐渐优化。 5. 超参数调优:调整模型的超参数,如学习率、批大小等,以获得更好的性能。 6. 模型评估:使用验证集或交叉验证等方法评估模型的性能,如准确率、召回率等指标。 7. 模型优化:根据评估结果对模型进行优化,如调整模型结构、增加正则化等。 8. 模型部署:将训练好的模型部署到实际应用,以进行推理和预测。 评估AI模型的性能可以使用多种指标,具体取决于任务的性质。在自然语言处理,常用的评估指标包括准确率、召回率、F1值、BLEU分数等。此外,还可以使用人工评估、用户反馈等方式来评估模型的性能。 AI模型自然语言处理有许多应用[^1],包括但不限于: 1. 机器翻译:将一种语言文本翻译成另一种语言。 2. 文本生成:生成自然语言文本,如文章、对话等。 3. 问答系统:回答用户提出的问题,如智能助手、知识图谱等。 4. 情感分析:分析文本的情感倾向,如情绪识别、舆情分析等。 5. 文本分类:将文本分为不同的类别,如垃圾邮件过滤、新闻分类等。 6. 命名实体识别:识别文本的人名、地名、组织名等实体。 7. 信息抽取:从文本提取结构化信息,如事件抽取、关系抽取等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

明哲AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值