【关系抽取综述】


在关系抽取任务中,输入是一段包含实体和上下文信息的文本,输出是表示实体之间关系的结构化信息。这种结构化信息可以采用多种形式,例如二元关系(两个实体之间的关系)或多元关系(多个实体之间的关系)。

关系抽取的一般流程如下:

  1. 实体识别(Entity Recognition):首先,需要对文本进行实体识别。实体可以是人名、地名、组织机构名等具有特定意义的词汇。
  2. 关系分类(Relation Classification):接下来,需要将识别到的实体之间的关系进行分类。
  3. 关系抽取(Relation Extraction):最后,根据实体之间的关系类别,从文本中提取出关系的结构化信息。这可以是一个包含实体和关系的三元组,例如(实体1, 关系, 实体2)。

基于规则的关系抽取方法

基于触发词/基于的关系抽取

自定义规则后从文中对应(eg,“is a”的关系)

优点:
(1)由于是人工定义的,比较准确简单直观,易于理解和扩展。
(2)不需要训练数据

缺点:
(1)覆盖率低
(2)需要较多的人力成本
(3)规则本身难设计
(4)存在当触发词在文本中的位置变化、触发词的多义性等问题

基于语法书的关系抽取

通过分析语法树的节点和边,利用节点的特征和相互之间的连接关系来确定实体之间的关系

  1. 路径上的单词特征:考虑路径上的单词属性,如词性、词义、词频等。
  2. 句法依存关系:分析路径上的语法依存关系,例如主谓关系、动宾关系等,来判断两个实体之间的关系类型。
  3. 语法树的子树:寻找包含两个实体的子树,分析子树的结构和特征来确定关系。
  4. 关系分类和归纳:对于提取出的关系,可以通过分类器将其归类到预定义的关系类型中,从而得到更加具体的关系信息。

基于机器学习的关系抽取方法

有监督学习

基于特征向量的方法

提取出一系列特征向量,然后进行分类
请添加图片描述

下面是基于特征向量的关系抽取方法的一般步骤:

  1. 特征提取:首先,从输入的文本中提取相关特征。这些特征可以包括词语级别的特征(如词袋模型、TF-IDF向量)、句子级别的特征(如句子长度、词性标记)和语义特征(如词向量表示、主题模型等)。同时也可以考虑依存关系、句法树等结构化特征。
  2. 特征向量表示:将提取的特征转换为数值向量表示。常用的方法包括one-hot编码、TF-IDF权重化、词嵌入(词向量)等。这样可以将文本和关系映射到特征向量空间中。
  3. 关系标注:对于训练数据集中的样本,人工标注其关系类别。
  4. 模型训练和预测:使用带有标注数据的特征向量作为训练集,可以使用各种机器学习算法(如逻辑回归、支持向量机、随机森林等)进行模型训练。训练后的模型可以用于预测新的文本样本的关系类型。
  5. 后处理:根据任务需求,对模型预测的结果进行后处理。

基于核函数的方法

通过将文本数据映射到高维特征空间,并利用核函数计算文本之间的相似度或距离,从而进行关系抽取。

半监督学习

Booststrap

一般步骤:【生成规则 – 寻找新 seed tuple — 添加到之前的 seed tuple】

  1. 根据seed tuple 库生成规则,并写入规则库
  2. 根据规则匹配上,生成三元组
  3. 将新生成的三元组加入到seed tuple库中

缺点:
(1)容易生成准确率非常低的规则
(2)是一个串行的算法,可能会导致误差累积

Snowball

一般步骤:【生成规则 – 寻找新 seed tuple — 添加到之前的 seed tuple】

  1. 根据seed tuple 库生成规则,计算规则之间的两两相似度【下图】,对规则聚类【下图】并写入规则库
  2. 根据规则匹配上,计算tuple与各规则库的相似度,若大于某个阈值,则将五元组加入到seed tuple库中
  3. ¥ 评估规则的准确率等信息并进行过滤
  4. ¥评估tuple的准确率等信息并进行过滤
  • snowball采用的是一种五元组的方法,实现近似匹配:
  • 五元组:【left】【实体1】【middle】【实体2】【right】
  • 相似度计算方法请添加图片描述
  • 聚类方法进行聚类的方法
  • 评估pattern方法:(1)匹配 tuple,可以得到只由这个规则生成的 tuple 库;而原来的 seed tuple 库是由许多条规则生成的。
    (2)数出新生成的tuple中有多少条在原来tuple库中,就可以计算出正确率
  • 评估tuple方法:
    (1)评估原则:多个规则>单个规则
    (2)当规则数量相同时,正确率越大,越靠谱

bootstrap🆚snowball

请添加图片描述

无监督学习

聚类方法


基于深度学习的关系抽取方法【ing…】

有监督学习

流水线学习

流水线学习方法是指在实体识别已经完成的基础上直接进行实体之间关系的抽取;然后在对实体对进行关系分类,从而找出三元组。

联合学习

同时完成对主体、客体和关系抽取同步进行,即同时完成实体的识别和实体间关系的抽取,通过一个模型直接得出三元组

远程监督学习

远程监督方法比有监督多一步远程对齐知识库给无标签数据打标签

参考

关系抽取方法总结(基于规则-传统机器学习-深度学习)
snowball和bootstrap写的很好,这是个大佬,我刷到过好几个他的文章,都写的很好
鄂海红,深度学习实体关系抽取研究综述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值