ICLR 2020《Language Models are Open Knowledge Graphs》论文笔记

来源: ICLR
作者:清华大学、UCB
内容:可以发现其他没有被KG schema预先定义的关系,自动建立完善知识图谱。
创新点:

预训练的语言模型
词嵌入(Word Embedding):Word2Vec和Glove
上下文嵌入(Context Word Embedding): CoVe和ELMO
预训练模型: GPT和BERT
改进型和领域定制型: 改进型代表为ALBERT和XLNet;领域定制化代表为SciBert (Scientific Bert) 和BioBert(Biomedical Bert)

beam search搜索算法:
从搜索过程中返回具有最高匹配度(匹配度是通过在预先训练的线性模型的注意权重矩阵中搜索而得到的)的candidate
fact。在这里插入图片描述

模型图
MAMA模型

  1. 获取基本原料

输入:
(1).文本语料库,例如英语维基百科,包含段落和句子。
(2).预先训练的语言模型LM,例如bert,GPT-2/3。

  1. Match(自动抽取三元组作为候选集Candidata Facts)
    提取实体和关系

具体:
在这里插入图片描述
先用开源工具抽取出它的所有实体,构成我们可能建立的关系候选。按照他们在句子中出现的顺序,分为头实体和尾实体。然后再利用BERT这类预训练模型的注意力权重来提取实体间的关系。
【1】对于一个(头实体,尾实体)对,用Beam search方法从一个头实体出发生成一个到尾实体的序列,比如:图中从Dylan出发,以songwriter结束。
【2】 对于每一位置,我们看注意力权重矩阵里attend到这个实体的这一列,并且只关注在句子中当前位置之后的token的注意力权重,选择权重最大的下一个token加入当前序列。比如:从Dylan出发,看注意力权重矩阵中第一列选择了is(权重0.3)这个token,然后重复之前的操作看is这一列,选songwriter(权重0.4)这个token,那么搜索结束,我们就得到了一个(Dylan,is, songwriter)的序列。
【3】对于关系提取加入一些限制条件:
(1)只保留注意力权重和大于阈值的序列,防止BERT这类模型单纯地提取出符合语言模型的序列,而不是那些对实体有特殊意义的关系。
(2)提取出来的关系必须在整个语料中出现足够多的次数,防止出现一些过于细节偏门的关系。
(3)关系序列必须是句子中出现的连续token,防止提取出没有意义的关系。

  1. Map

将这些candidate中的entity和relation匹配到已有的KG schema中;同时对部分无法匹配的entity和relation进行保留,最终得到整个知识图谱。

实验效果

使用目前比较成熟的实体链接和关系抽取方法,证明MAMA无论在准确率还是召回率上都超过了之前的方法。
在这里插入图片描述
MAMA的一大亮点,可以发现其他没有被schema预先定义的关系:
(1)蓝色的关系是在预定义schema中出现的部分
(2)黄色是MAMA额外生成的33%的新关系
例子:
Dylan和其他歌手曾经合作过,曾经是某个乐队的成员等,这样的信息是人工schema中所没有的,但对于歌手来说却是很重要。
如果可以自动完善知识图谱和schema的构建,那就解决了KG中很难穷尽所有关系的难题了。
在这里插入图片描述
缺点:没有和其他的SOTA进行比较,效果尚未可知。

论文链接: https://arxiv.org/pdf/2010.11967.pdf

讲解视频: https://www.youtube.com/watch?v=NAJOZTNkhlI&t=276s

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,以下是MIA、MICCAI、NIPS、CVPR、ICLR在2020到2021年的分割方面的一些高亮工作: 1. MIA:2020年的MIA会议上,一篇名为“Efficient and Robust Attention U-Net for Medical Image Segmentation”的论文提出了一种新的多任务医学图像分割方法,它结合了注意力机制和U-Net结构,能够有效地处理医学图像中的不同类型结构。 2. MICCAI:2020年的MICCAI会议上,一篇名为“Recursive Deep Supervision for Brain Tumor Segmentation”的论文提出了一种递归深度监督方法,用于进行脑肿瘤分割。该方法结合了多尺度特征和递归监督机制,能够在不需要大量标注数据的情况下实现高质量的分割结果。 3. NIPS:2020年的NIPS会议上,一篇名为“Learning to Zoom: a Saliency-Based Sampling Approach for Neural Network Training”的论文提出了一种基于显著性采样的神经网络训练方法,能够在处理大尺度图像时提高分割性能。 4. CVPR:2021年的CVPR会议上,一篇名为“Dual Attention Network for Scene Segmentation”的论文提出了一种双重注意力网络,用于进行场景分割。该方法结合了空间和通道注意力机制,能够更好地捕捉图像的局部和全局信息。 5. ICLR:2021年的ICLR会议上,一篇名为“ShapeMask: Learning to Segment Novel Objects by Refining Shape Priors”的论文提出了一种名为ShapeMask的方法,能够使用形状先验知识来分割新颖的物体。该方法结合了形状重建和分割网络,能够在只有少量标注数据的情况下实现高质量的分割结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值