2023-12-3(9:51)
【信息抽取】基于prompt的通用信息抽取方案——千言数据集
任务介绍
通用信息抽取
按照特定的抽取框架S,从给定的一组自由文本X中抽取出所有符合抽取需求的信息结构Y(实体、关系、事件等)。对于同一输入文本,不同的抽取框架会抽取不同的信息结构.
任务类型
NER:文本->(实体类型,实体span)两元组 NER任务
Relation Extraction:文本→>(主体span,关系类型,客体span)三元组. 关系抽取任务
Event Extraction:文本->(事件类型,论元角色,论元span)三元组 事件抽取任务
opinion Extraction :文本-→>(意见对象span,情感表达span,情感极性)三元组 观点抽取任务
任务设定
Seen Schema:有充分训练数据(Rich-Resource ). 高资源场景
Unseen Schema:仅有少量训练数据(Low-Resource ) 低资源场景
通用信息抽取的本质:若干span和类别 组成的多元组的集合
要求模型具有抽取extraction,分类classification和将若干span和类别进行组合的combination的能力
高资源,指针层
低资源,训练数据较少,l