【论文浅尝】Large Language Models for Generative Information Extraction: A Survey

本文对生成式IE的LLM进行了全面的探索。使用两种分类法对现有的代表性方法进行分类:

(1)众多IE子任务的分类法,旨在对可以使用llm单独或统一提取的不同类型的信息进行分类;

(2)学习范式分类法,对利用llm生成IE的各种新方法进行分类。

Preliminaries of Generative IE

这种生成式IE调查主要涵盖了NERREEE的任务。这三种类型的IE任务以生成方式制定。给定一个输入文本其序列为n个标记X = [x_{1},…],x_{n}],prompt P,目标提取序列Y = [y_{1},…], y_{m}],目标是在自回归公式中最大化条件概率:

其中θ为llm的参数,llm可以被冻结或训练。在LLM时代,有几种任务提出在X后面附加额外的提示或指令P,以增强LLM任务的可理解性。

命名实体识别(NER)包括两个任务:实体识别实体分类。前一个任务关注于识别实体的跨度(“Steve”),后一个任务关注于为这些已识别的实体分配类型(“PERSON”)。

关系提取(RE)在不同的任务中可能有不同的设置。(1)关系分类是指对两个给定实体之间的关系类型进行分类;(2)关系三元组是指识别关系类型和对应的头尾实体跨度;(3)关系严格是指给出正确的关系类型、跨度和头尾实体的类型。

事件提取(EE)可分为两个子任务:

(1)事件检测(Event Detection)(在某些作品中也称为事件触发提取(Event Trigger Extraction)),目的是识别和分类最清楚地代表事件发生的触发词和类型。

(2)事件参数提取(Event Arguments Extraction)旨在从句子中识别和分类在事件中扮演特定角色的参数。

Information Extraction Tasks

Named Entity Recognition

Relation Extraction

 Event Extraction

 Universal Information Extraction

NL-LLMs:基于自然语言的方法将所有IE任务统一在一个通用的自然语言模式中。例如,UIE 提出了一个统一的文本到结构生成框架,该框架对提取结构进行编码,并通过结构化提取语言捕获常见的IE功能。InstructUIE通过为微调llm构建专家编写的指令来增强UIE,以一致地建模不同的IE任务并捕获任务间依赖性。此外,ChatIE 探索了在零次提示中使用GPT3和ChatGPT 等llm,将任务转化为多回合问答问题。 

Code-LLMs:基于代码的方法通过使用通用编程模式生成代码来统一IE任务。Code4UIE 提出了一个通用的检索增强代码生成框架,它利用Python类定义模式,并使用上下文学习来生成代码,从文本中提取结构知识。此外,CodeKGC 利用代码中固有的结构知识,并采用模式感知提示和理性增强生成来提高性能。为了使llm能够立即遵守指导方针,GoLLIE提出了通过微调llm以使其与注释指导方针保持一致来提高未见过的IE任务的零射门性能。

Future Directions

Universal IE

以前的生成式IE方法和基准通常是针对特定领域或任务量身定制的,限制了它们的通用性。虽然最近已经提出了一些使用llm的统一方法,但它们仍然存在一定的局限性(例如,长上下文输入和结构化输出的不对齐)。因此,进一步开发能够灵活适应不同领域和任务的通用IE框架是一个很有前途的研究方向(例如整合特定任务模型的见解来帮助构建通用模型)。

Low-Resource IE

具有llm的生成式IE系统在资源有限的情况下仍然面临挑战。基于总结,有必要进一步探索LLM的情境学习,特别是在改进示例选择方面。未来的研究应优先发展稳健的跨领域学习技术,如领域适应或多任务学习,以利用来自资源丰富领域的知识。此外,还应该探索使用llm的高效数据注释策略。

Prompt Design for IE

设计有效的指令被认为对llm的绩效有显著影响。提示设计的一个方面是构建可以更好地与LLM的预训练阶段保持一致的输入和输出对。另一方面是通过鼓励LLM进行逻辑推理或可解释的生成来优化提示,以获得更好的模型理解和推理。此外,研究人员可以探索交互式提示设计(如多回合QA) ,LLM可以迭代地对生成的提取进行优化或自动提供反馈。

Open IE

open IE设置对IE模型提出了更大的挑战,因为它们不提供任何候选标签集,并且仅仅依赖于模型理解任务的能力。LLM凭借其知识和理解能力,在一些Open IE任务中具有显著优势然而,在更具挑战性的任务中仍然存在表现不佳的情况,这需要研究人员进一步探索。

  • 20
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是饿梦啊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值