【笔记三】飞浆-信息抽取

信息抽取概述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

实体抽取

在这里插入图片描述

在这里插入图片描述

BIOES标注模式 B-begin, I-inside, O-outside/other, E-end, S-single

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

关系抽取

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
关系分类是关系抽取的第二步

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
标签都是预先定义好的
Sigmod 根据每个字/词输出的概率,进行分类~ 大于阈值为1 ,可以输出多个类别
在这里插入图片描述

在这里插入图片描述
对于实体对多重组合的复杂问题,抛弃了BIO的标注方式
如何预测尾实体?每个词有多种向量表示,把这些词向量加权平均,再和encoder的每个字的向量表示相加,考虑当前词和预测词之间的关系,就可以把与【结节】有关系的词抽取出来

在这里插入图片描述
在这里插入图片描述
远监督噪音(DS):拿知识库直接匹配文本的过程
由于特定领域的标注数据难度大、成本高,可以考虑使用海量知识库中的文体,如果两个词出现在一句话/文本中,我们就认为他们是有关系的,可以从中抽取出实体和关系。 但这个过程似乎有些草率,也会存在一些问题~ 抽取出不正确或有问题的实体关系,就产生了一定的噪音 如,娱乐新闻中,男明星和女明星离婚了,之后又描述了他们之前的很多事情,那他们直接就不存在婚姻关系~

文档级抽取:长文本/文档

开放育关系抽取,在构建知识图谱的时候需要~ 因为不预先定义关系,关系类别是从文本中来的,S 主语、P 谓语、 O 宾语

事件抽取

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

位置、大小都是事件要素
触发词和要素,称为事件
(1)触发词当做头实体:圆开/结节影
(2)要素当做尾实体:病变位置、大小
(3)进而构建关系

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值