【知识图谱 赵军 学习笔记】第四章 实体识别和扩展

本文详细介绍了命名实体识别的过程和难点,包括基于规则和机器学习的方法,如正向最大匹配、逆向最大匹配和条件随机场模型。接着探讨了细粒度实体识别和实体扩展,强调了其在知识图谱构建、问答系统和信息抽取中的应用。实体扩展涉及种子处理、实体抽取和结果过滤,其中模板匹配和上下文相似度统计是关键方法。
摘要由CSDN通过智能技术生成

实体识别

命名实体识别任务是识别出文本中实体的命名性指称项,并标明其类别,一般来说,是识别出待处理文本中的三大类(实体类、时间类、数字类)和七小类(人名、机构名、地名、时间、日期、货币和百分比)

过程

命名实体识别过程通常包括两个部分:

  • 识别实体别界
  • 确定实体类别(人名、地名、机构名…)

难点

(1)命名实体形式多变

  • 人名:姓氏的用字是有限制的,但是名的用字很灵活
  • 地名:通常是用若干个字组成地名,但可能存在一些简称或者带有后缀名
  • 机构名:可能包含命名性成分、修饰性成分、表示地名的成分以及关键词成分等

(2)命名实体的语言环境复杂

基于规则的实体识别方法

大致有两种方法:基于规则的方法基于机器学习的方法

基于规则的方法

  • 优点:准确率高,便于推理
  • 缺点:成本昂贵,移植性差

最具代表性的方法是基于命名实体词典的方法,采用字符串完全匹配或部分匹配的方式。经典的方法有:

  • 基于正向最大匹配的方法
  • 基于逆向最大匹配的方法
  • 基于最短路径的方法

规则举例:

  • 中文人名的识别规则示例:<姓名><名字>
  • 中文组织名的识别规则示例:{[人名][组织名][地名][核心名]}<指示词>
  • 中文地名的识别规则示例:<名字部分><指示词>

基于机器学习的实体识别

利用预先标注好的语料训练模型,使得模型学习到某个字或词作为命名实体组成部分的概率,进而计算一个候选字段作为命名实体的概率值,如果大于一个阈值,则识别为命名实体。
可分为两种方法:基于特征的方法基于神经网络的方法

基于特征的方法

常用的机器学习模型:

  • 语言模型
  • 隐马尔科夫模型
  • 最大熵模型
  • 错误驱动的学
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值