《知识图谱》赵军 阅读笔记(四)——第四章 实体识别和扩展

本文详细探讨了知识图谱中的实体识别和扩展技术。实体识别涉及命名实体的识别,包括基于规则和机器学习的方法,难点在于实体形式多变和语言环境复杂。细粒度实体识别则需要处理更多类别和层次。实体扩展则旨在从大量数据中抽取同类实体,应用于问答系统、信息抽取等领域。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    实体(Entity)作为知识图谱的基本单元,也在文本中承载信息的重要单位。实体识别和分析是支持知识图谱构建和应用的重要技术。根据国际公开评测(Automatic Content Extraction,ACE)给出的定义,在文本中对实体的引用可以有三种形式:命名性指称、名词性指称以及名词性指称。狭义来说,命名实体指现实世界中具体或抽象的实体。命名实体的确切含义,只能根据具体应用来确定。
    本章内容大多是任务驱动,因此,首先对需要做的任务进行概述,之后,介绍完成这些任务使用的不同方案。

4.1 实体识别和扩展

4.1.1 任务概述

    命名实体的任务主要是识别出文本中实体的命名性指称项,并标注其类别。一般来说,命名实体识别的任务就是识别出待处理文本中三大类、七小类命名实体。不同任务对不命名实体类别粒度的需求不同。细粒度实体是被的难点主要是类别多、类别具有层次、标注成本高。

4.1.1.1 实体识别的难点

    七类实体中的时间、日期、货币、百分比具有明显规律,较为容易识别,其他三类(人名、地名、机构名)比较灵活,大多需要配合上下文等其他信息配合完成识别。
命名实体的识别过程包括两部份:(1)识别实体边界;(2)确定实体类别(人名、地名、机构名等相关信息)。

    命名实体识别的主要难点在于以下几个方面:
        (1)命名实体形式多变。命名实体内部结构复杂。例如,人名中虽然对姓氏进行了限制

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值