信息抽取

信息抽取是文本处理技术,涉及实体识别、实体消歧、关系抽取和事件抽取等任务。实体识别包括命名实体的边界识别和类型确定,开放域实体抽取通过种子词与目标词上下文相似性进行。实体消歧分为基于聚类和链接的两种方法,前者利用聚类算法,后者计算实体指称项和候选实体的相似度。关系抽取和事件抽取是信息抽取的其他关键方面,该领域面临的挑战包括未登录实体处理和准确度提升。
摘要由CSDN通过智能技术生成

信息抽取

一,信息抽取概述

信息抽取定义:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。

信息抽取的主要任务有:

  • 实体识别与抽取
  • 实体消歧
  • 关系抽取
  • 事件抽取

二,实体识别与抽取

1,实体识别

任务:识别出待处理文本中七类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

两个子任务:实体边界识别和确定实体类型。

特点

  • 人名、地名、机构名的识别难度较大。
  • 内部结构复杂,形式多变。
  • 上下文密切相关。
  • 考虑到每一类命名实体都具有不同的特征,不同类别的实体适合用不同的识别模型 。
    1. 人名:用基于字的模型描述其内部结构。
    2. 地名:用基于词的模型描述。

方法:

  • MEMM、HMM和CRF。
  • 基于深度学习的分词和命名实体识别。
2,开放域实体抽取

任务&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值