NLP学习——信息抽取

信息抽取

自动从半结构或无结构的文本中抽取出结构化信息的任务。常见的信息抽取任务有三类:实体抽取、关系抽取、事件抽取。

1、实体抽取

从一段文本中抽取出文本内容并识别为预定义的类别。

实体抽取任务中的复杂问题:
  1. 重复嵌套,原文中多个实体之间共享片段
  2. 不连续,一个实体由多个不连续片段组成

2、关系抽取

从文本中抽取一对实体和预定义的关系类型。
传统的关系抽取任务实现方案是先进行实体抽取,再输入头尾实体与原文进行关系分类。

简单关系抽取解码设计
关系抽取任务中的复杂问题:
  • 关系重叠,一个实体属于多个关系
  • 实体对组合,实体对有多重组合方式
针对关系重叠问题的解码设计
针对实体对组合问题的解码设计
综合解决上述问题的解码设计

3、事件抽取

从一段文本中抽取出预定义的事件触发词和事件要素。
在实际使用的过程当中,我们可以把除了关系以外的所有复杂信息全部拆解成关系抽取来解决事件抽取问题。

事件抽取是信息抽取的难点问题

事件抽取依赖实体抽取和关系抽取;
目前对事件还没有统一的定义,在不同领域针对不同应用不同人对事件有不同的描述;

信息抽取中事件的定义

事件:是发生在某个特定的时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事件或者状态的改变。
事件类型: 不同动作或者状态的改变代表不同类型的事件;
事件元素: 同一类型的事件中不同的时间、地点、元素代表了不同的时间实例;

参考:
1、https://blog.csdn.net/qq_40671063/article/details/123693613
2、https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedType=1&sharedUserId=151203&ts=1675913362694

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值