信息抽取
一,信息抽取概述
信息抽取定义:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。
信息抽取的主要任务有:
- 实体识别与抽取
- 实体消歧
- 关系抽取
- 事件抽取
二,实体识别与抽取
1,实体识别
任务:识别出待处理文本中七类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
两个子任务:实体边界识别和确定实体类型。
特点:
- 人名、地名、机构名的识别难度较大。
- 内部结构复杂,形式多变。
- 上下文密切相关。
- 考虑到每一类命名实体都具有不同的特征,不同类别的实体适合用不同的识别模型 。
- 人名:用基于字的模型描述其内部结构。
- 地名:用基于词的模型描述。
方法:
- MEMM、HMM和CRF。
- 基于深度学习的分词和命名实体识别。
2,开放域实体抽取
任务&#x