知识抽取(Knowledge Extraction, KE)是一种从自然语言文本中提取结构化的知识,并将其存储在知识库中的过程。知识抽取的目标是,通过自动或半自动的方式,将文本数据中的实体、属性、关系、事件等知识元素识别出来,并将其转换为一种标准化和可查询的格式,如三元组、图谱、本体等。知识抽取的挑战是,文本数据的类型、格式、领域、质量等方面存在很大的差异和复杂性,导致知识抽取的任务需要不同的方法和技术,而且很难保证抽取结果的准确性和完整性。知识抽取的现有方法主要分为两类:基于规则的方法和基于机器学习的方法。基于规则的方法依赖于人工编写的规则或模板,来匹配和提取文本中的知识。基于机器学习的方法依赖于大量的标注数据,来训练和应用模型,来预测和提取文本中的知识。
大语言模型(Large Language Models, LLMs)是一种利用大量的文本数据来训练的深度神经网络,它可以生成或理解自然语言,具有强大的表达能力和泛化能力。典型的大语言模型就是ChatGPT(以及GPT4.0)等。
LLMs在零样本学习(Zero-Shot Learning, ZSL)方面有很大的潜力,即在没有任何训练数据的情况下,执行新任务。LLMs可以通过接收一些自然语言提示(Natural Language Prompts, NLPs),来完成不同类型和领域的知识抽取任务。
论文标题:Structured prompt interrogation and recursive extraction of semantics (SPIRES): A method for populating knowledge bases using zero-shot learning
论文地址:https://arxiv.org/abs/2304.02711
这篇论文提出了一种利用大语言模型(LLM)进行零样本学习的方法SPIRES,它可以从自然语言文本中提取结构化知识。SPIRES利用预训练语言模型和简单规则生成解析知识抽取提示。
SPIRES利用预训练的语言模型(GPT-3+)来执行ZSL任务的过程是:
图1:SPIRES架构,其输入是文本与预期的结构化模板,通过OntoGPT产生prompt与GPT3+互动,结合公开数据库生成,产生输入文本中包含的结构化知识
首先,SPIRES根据用户提供的知识模式(Knowledge Schema, KS),生成一个自然语言提示(Natural Language Prompt, NLP),用于向GPT-3+提出问题。知识模式是一种定义了知识元素和关系的结构化表示,如三元组、图谱、本体等。自然语言提示是一种用自然语言表达的问题,用于引导GPT-3+返回符合知识模式的答案。
然后,SPIRES将自然语言提示和输入文本一起发送给GPT-3+,并接收GPT-3+返回的答案。输入文本是包含了目标知识的自然语言文本,如文章、报告、病历等。答案是GPT-3+根据自然语言提示和输入文本生成的自然语言文本,包含了符合知识模式的知识元素和关系。
接着,SPIRES解析GPT-3+返回的答案,将其转换为结构化的知识,并存储在知识库中。结构化的知识是一种符合知识模式的数据格式,如三元组、图谱、本体等。知识库是一种用于存储和查询结构化知识的系统,如数据库、文件、内存等。
最后,SPIRES递归地执行上述步骤,直到完成所有的知识抽取任务。
递归地执行是指SPIRES可以根据已经抽取出来的知识元素和关系,生成新的自然语言提示,并重复上述步骤,从而处理复杂和嵌套的知识抽取任务。
文献提到了以下几个示例:
食物配方的提取:SPIRES从食谱网站上的文本中提取出食物名称、原料、做法等信息,并将其存储为三元组形式。
多物种细胞信号通路:SPIRES从生物学文献中提取出不同物种之间的细胞信号通路,并将其存储为图谱形式。
疾病治疗:SPIRES从医学文献中提取出疾病名称、治疗方法、药物名称等信息,并将其存储为本体形式。
多步药物机制:SPIRES从药理学文献中提取出药物名称、作用靶点、作用机制等信息,并将其存储为多层次的图谱形式。
化学物质导致疾病:SPIRES从环境健康文献中提取出化学物质名称、暴露途径、导致的疾病等信息,并将其存储为因果图谱形式。
SPIRES的优势是适应性强,可以处理不同领域和表示形式,利用上下文消歧义。实验结果表明,SPIRES在准确率、召回率和F1值方面都优于或接近其他方法,证明了其有效性和通用性。相比现有关系抽取方法,SPIRES更为灵活,无需训练数据即可处理新任务。
因此,AI大语言模型在医学文本信息提取方面具有以下优势:
1)可以处理多种类型和格式的文本,包括结构化数据、图像、公式等,提取出其中的关键信息。这比传统方法可以处理的文本类型更加丰富。
2)基于海量文本进行预训练,使得语言模型可以更好地理解医学文本的语义和上下文。这为后续的零样本学习奠定基础。
3)利用预训练模型和零样本学习技术,可以不依赖大量手工标注的训练数据,就直接适应新的医学文本信息提取任务。
4)可以充分利用上下文信息来消除歧义,进行推理,生成更准确、完整的结构化医学知识。
但是大语言模型也存在以下挑战:
1)需要大量计算资源来训练复杂的模型架构,也需要足够的算力来使用预训练好的模型。这增加了技术门槛。
2)结果的可解释性较差,不容易追溯模型的推理链条,存在“黑箱”问题。这会影响模型的可信度。
3)当输入文本存在偏差时,容易产生错误结果,需要结合领域知识进行验证。
总体来说,SPIRES这类基于大语言模型的零样本学习方法,可以极大地帮助医务工作者快速整理和获取相关知识,提高工作效率。也可以帮助患者正确理解医学文本信息,增强健康管理能力。如果模型偏差得以控制,可以促进医学知识的共享和传播,推动医疗水平的提高。其应用前景广阔,具有重要的社会价值。
大语言模型(LLM)|ChatGPT相关文章(以下点击可阅读):
1个小时利用ChatGPT完成神经外科领域的完全虚构的论文!AI写论文的逼真程度令人震惊
以色列一对师生借助ChatGPT,1小时完成1篇论文糖尿病论文
利用ChatGPT,这位医生4个月内完成16篇论文,且已发表5篇!医生科研开启加速模式!
AI论文 | ChatGPT在医学中的应用概述:应用、优势、局限性、未来前景和伦理思辨
AI论文 | 从临床和科研场景分析ChatGPT在医疗健康领域的应用可行性
AI论文 | ChatGPT可以撰写研究文章吗?以人群层面疫苗有效性分析为例
ChatGPT在PubMed上的发表数量超过1000篇:展望未来之路
GPT辅助论文降重教程,100%降至13%(实用指令,赶紧收藏)
国自然基金委:在各科学部设立科普类项目!面青地等将科普成果列入项目成果;资助强度较大项目,应围绕项目开展科普工作
2023年国自然医学科学学部人工智能及大模型相关课题项目汇总
科研之心,致力于探索AI大模型与科研结合。科研之心为您提供最新的AI资讯、最实用的AI工具、最深入的AI分析,帮助您在科学研究中发掘AI的无限潜力。
欢迎关注,保持交流!